分词 中文分词技术是什么

编者按:中文分词是指将一个汉字序列分割成单个单词。分词是将连续的单词序列按照一定的规范重组为单词序列的过程。我们知道,在英语写作中,空是作为单词之间的自然定界符,而在汉语中,只有单词、句子、段落可以简单地用明显的定界符来划界,而单词没有形式上的定界符。虽然英语也有分短语的问题,但在单词层面,汉语比英语复杂难懂得多。当我们了解了中文分词技术之后,就可以更好的对其进行改进,这也可以说是一项人们需要掌握的技术。

分词 中文分词技术是什么


文章图片

1.为什么要做中文分词?
单词是可以独立移动的最小的有意义的语言成分。英语单词以空为自然定界符,汉语单词为基本书写单位,单词之间没有明显的区分标记。因此,中文词语分析是中文信息处理的基础和关键。
Lucene中的中文处理是基于自动分词或二进制分词的。另外还有最大分割(包括前向、后向、前后结合)、最小分割、全分割等等。
二、中文分词技术的分类
我们讨论的分词算法可以分为三类:基于词典和词库匹配的分词方法;基于词频统计的分词和基于知识理解的分词。
第一种方法是利用字典匹配、中文形态学或其他中文语言知识进行分词,如最大匹配法和最小分词法。这种方法分词简单高效,但由于汉语语言现象的复杂性和丰富性、词典的完备性和规则的一致性,很难适应大规模开放文本分词。第二类统计分词方法是基于词的统计信息,如相邻词之间的信息、词频和对应的共现信息等。由于这些信息是通过调查真实语料获得的,因此统计分词方法具有较好的实用性。
下面简单介绍几种常用方法:
1)逐词遍历
逐词遍历按照从长到短的顺序逐词搜索字典中的所有单词,直到文章结束。也就是说,不管文章多短,字典多大,字典都要遍历一次。这种方法效率低,通常不使用较大的系统。
2)基于词典和词库匹配的分词方法(机械分词方法)
该方法根据一定的策略将待分析的中文字符串与“足够大”的机器词典中的条目进行匹配。如果在字典中找到某个字符串,则匹配成功。对一个单词进行识别,根据扫描方向的不同分为正向匹配和反向匹配。根据不同长度的优先匹配,可分为最大(最长)匹配和最小(最短)匹配。根据是否与词性标注结合,可分为简单分词法和分词标注结合的综合方法。常用方法如下:
(一)最大匹配法通常简称MM法。
基本思想是:假设分词词典中最长的词有I个汉字,将处理后文档的当前字符串中的前I个词作为匹配字段进行词典搜索。如果字典中有这样一个I字,则匹配成功,匹配字段被分割为一个字。如果在字典中找不到这样的I字,匹配失败,匹配字段中的最后一个字被删除,剩下的字符串重新匹配……以此类推,直到匹配成功,即切掉一个字或者剩下的字符串长度为零。这样就完成了一轮匹配,然后匹配下一个I字串,直到扫描完文档。
该算法描述如下:
初始化当前位置计数器,设置为0;
从当前计数器开始,取前2i个字符作为匹配字段,直到文档结束;
如果匹配字段的长度不为0,将在字典中匹配相同的长度。
如果匹配成功,那么,
a)将匹配字段划分为一个单词,并将其放入分词统计表中
b)将当前位置计数器的值与匹配字段的长度相加
c)跳到步骤2)
否则
a)如果匹配字段的最后一个字符是中文字符
(1)删除匹配字段的最后一个单词;
②匹配场长度减少2;

推荐阅读