网络机器人Audrey是用什么编程语言写的,是Prolog(逻辑编程语言),还是人工智能标注语言AIML?回家之后,立即把Audrey叫出来,当面问她:“Do you use Prolog?”她对我说:“I use ALML.”我又问她:”什么是AIML?“她想了一下,对我说:“The ALICE software implements AIML (Artificial Intelligence Markup Language) a non-standard evolving markup language for creating chat robots(用于制造聊天机器人)…….“。
经过搜索查询发现,这种人工智能标注语言AIML,国内无人过问,它的实现是基于Linux平台上的一套自由软件。实际上,AIML是当今国际网络智能机器人研究的重大进展。在我们国内,除一篇大连理工大学的硕士之外,几乎无人问津。“核高基”重大软件专项毫不触及这类基础性的软件,反而搞什么“国产Linux”,白白浪费了国家的钱财。
Audrey女士:http://www.tolearnenglish.com/free/celebs/audreyg.php
在不设置应用域名情况下都是默认www.example.com,最好在网站初期就把应用域名设置好,在后期修改会造成多入口问题,引起收录混乱,如:
http://www.example.com/forum-aipr-1.html
http://bbs.example.com/forum-aipr-1.html
以上两个链接都指向同一地址,预期应该是http://www.example.com/forum-aipr-1.html 301重定向到http://bbs.example.com/forum-aipr-1.html,类似的情况还有“门户”、“群组”。
解决方法有两种:
1.修改nginx/Apache的rewrite。
2.修改相应php文件。
阅读全文…
这次着陆方式又进了一步
Curiosity Rover Trailer
阅读全文…
哈工大社会计算与信息检索研究中心的研究方向包括文本检索、文本挖掘、语言分析、跨语言检索五个方面,研究中心以认知心理学和机器学习为理论,以语言分析为基础研究,以信息抽取、文本检索、跨语言/媒体检索为应用研究,以精准搜索与挖掘系统为应用系统平台。下面是一些它们非常不错的产品。
系统演示
语言技术平台(LTP, Language Technology Platform)
文本挖掘系统(TMS, Text Mining System)
一种改进的基于同义词替换的中文文本信息隐藏方法
作者:甘灿,孙星明,刘玉玲,向凌云
(湖南大学 计算机与通信学院,湖南 长沙410082)
1 基于同义词替换的隐藏算法
基于同义词替换的方法是目前中文自然语言信息隐藏方法中使用最为广泛的方法。在同义词替换中,通过选择载体文本中在某一同义词库中出现的词,并根据一定的编码方式对这些词进行同义词替换,以此来嵌入隐藏信息。这里所谓的同义词,一般定义为“同一种语言中,在一些或全部的义项中具有相同或基本相同的意思的两个或多个词”。若设载体文本为C,隐秘信息为M,隐藏信息后的文本为S,同义词库为D,则有嵌入函数e()和提取函数d(),使得:
e(C,M,D)=S, d(S,D)=M,并且C和S在语义上保持不变。
阅读全文…
分词的原理
1、 英文分词的原理
基本的处理流程是:输入文本、词汇分割、词汇过滤(去除停留词)、词干提取(形态还原)、大写转为小写、结果输出。
2、 中文分词原理
中文分词比较复杂,并没有英文分词那么简单。这主要是因为中文的词与词之间并不像英文中那样用空格来隔开。
主要的方法有三种:基于词典匹配的分词方法、基于语义理解的分词、基于词频统计的分词。
阅读全文…
常用汉语词性标记集有以下这些:
- 计算所一级标注
- 计算所二级标注
- 北大一级标注
- 北大二级标注
下面是计算所汉语词性标记集v5.0,不懂是哪级…应该都差不了多少。
阅读全文…
SimplePie 是一个 RSS 解析程序,今天试了一下,用它来解析RSS实在是太方便了。 它和 WorPress 内部集成的MagpieRSS很类似。SimplePie 在对 RSS 或 Atom 的数据处理能力上毫不逊色于 MagpieRSS,并且 SimplePie 速度更快,而且功能也更加强大,SimplePie 拥有了比MagpieRSS 更多的实用方法和属性,这可以帮助你快速的构建一个 RSS 阅读器或 RSS 数据处理模块。
使用方法:
SimplePie下载地址:http://simplepie.org/downloads/
把下载下来的ZIP压缩包解压到某个目录下,在需要使用的时候把其中的simplepie.inc文件include进来就行了。
SimplePie 使用上非常简单,它的构造函数有三个参数。
- feed_url 设置 Feed 的地址,可以输入多个。
- cache_location 设置缓存的文件夹
- cache_duration 设置缓存时间,默认为60分钟
阅读全文…
wordpress的计划任务通过页面触发实现,只有页面被访问的时候,才判断当时是否有需要运行的后台任务,虽然后台任务是被用户的访问激活的,但后台任务的执行并不会影响用户的访问速度,因为Wordpress在处理用户请求时,发起一个独立的http请求到wp-cron.php页面后,并不等待wp-cron.php将后台任务执行完毕,也不继续接收由wp-cron.php返回的数据,而是立即处理用户的访问请求,这里有点类似多线程。
前台页面触发机制:
- 执行/wp-settings.php中的钩子sanitize_comment_cookies。
- sanitize_comment_cookies调用/wp-includes/cron.php wp_cron。
阅读全文…
pcre 8.11版本存在一个栈溢出bug,linux线程栈默认大小是10240 kbytes,在正则匹配子模式大于22K会生成core 。
受影响函数:
- preg_filter — 之行一个正则表达式搜索和替换
- preg_grep — 返回匹配模式的数组条目
- preg_last_error — 返回最后一个PCRE正则执行产生的错误代码
- preg_match_all — 之行一个全局正则表达式匹配
- preg_match — 执行一个正则表达式匹配
- preg_quote — 转义正则表达式字符
- preg_replace_callback — 执行一个正则表达式搜索并且使用一个回调进行替换
- preg_replace — 执行一个正则表达式的搜索和替换
- preg_split — 通过一个正则表达式分隔字符串
阅读全文…