存档

文章标签 ‘tag’

分词系统汇总

2011年11月20日 没有评论

分词的原理

1、 英文分词的原理

基本的处理流程是:输入文本、词汇分割、词汇过滤(去除停留词)、词干提取(形态还原)、大写转为小写、结果输出。

2、 中文分词原理

中文分词比较复杂,并没有英文分词那么简单。这主要是因为中文的词与词之间并不像英文中那样用空格来隔开。

主要的方法有三种:基于词典匹配的分词方法、基于语义理解的分词、基于词频统计的分词。

阅读全文…

分类: 算法 标签: ,

计算所汉语词性标记集v5.0

2011年11月19日 没有评论

常用汉语词性标记集有以下这些:

  1. 计算所一级标注
  2. 计算所二级标注
  3. 北大一级标注
  4. 北大二级标注

下面是计算所汉语词性标记集v5.0,不懂是哪级…应该都差不了多少。

阅读全文…

分类: 未分类 标签: ,