分词 中文分词技术是什么( 二 )


否则,①删除匹配字段的最后一个字节;
【分词 中文分词技术是什么】②匹配字段长度减少1;
b)跳到步骤3)
否则,a)如果匹配字段的最后一个字符是汉字,
当前位置计数器的值增加2;
否则,当前位置计数器的值增加1;
b)跳到步骤2)
(2)反向最大值法通常简称为RMM法。RMM方法的基本原理与MM方法相同,不同的是分割的方向与MM方法相反,使用的分割字典也不同。反向最大匹配法从被处理文档的末尾开始匹配扫描,每次以末尾的2i个字符(I字串)作为匹配字段。如果匹配失败,匹配字段中的第一个单词将被删除,匹配将继续。因此,它使用的分词词典是一个反向词典,其中每个条目将以相反的顺序存储。在实际处理中,文档被反转以生成逆序文档。然后根据反向字典,采用正向最大匹配法对反向文档进行处理。
因为汉语中有很多正结构,从后往前匹配可以适当提高准确率。因此,反向最大匹配法的误差小于正向最大匹配法。统计结果表明,仅使用正向最大匹配的错误率为1/16 9,仅使用反向最大匹配的错误率为1/245。比如分割字段“硕士学位”会产生“硕士学位/生产”,而反向最大匹配法使用反向扫描可以获得正确的分割结果“硕士学位/研究/生产”。
当然,最大匹配算法是一种基于分词词典的机械分词方法,不能根据文档上下文的语义特征进行分词,对词典的依赖性很大。所以在实际使用中,难免会造成一些分词错误。为了提高系统分词的准确性,可以采用正向最大匹配法和反向最大匹配法相结合的分词方案(即双向匹配法,见(4))。)
(三)最小切分法:尽量减少每句话中删减的字数。
(4)双向匹配法:正向最大匹配法和反向最大匹配法相结合。首先根据标点符号对文档进行粗略分割,并分解成若干句子,然后采用正向最大匹配法和反向最大匹配法对这些句子进行扫描分割。如果两种分词方法得到的匹配结果相同,则认为分词正确;否则,它将被视为最小集。
3)基于词频统计的全切分和分词方法
基于词频统计的分词方法是一种全切分方法。在讨论这种方法之前,首先要了解一下全切分的相关内容。
完全分割
完全分割需要输入序列的所有可接受的分割形式,而部分分割只获得一种或几种可接受的分割形式。由于部分分割忽略了其他可能的分割形式,基于部分分割的分割方法可能会错过正确的分割,导致错误或失败的分割。而基于全切分的分词方法获得了所有可能的切分形式,从根本上避免了可能切分形式的遗漏,克服了一些分词方法的缺陷。
全切分算法可以获得所有可能的切分形式,其句子覆盖率和分词覆盖率都是100%,但是全切分分词在文本处理中没有得到广泛应用,原因如下:
1)全切分算法只是获得正确分词的前提,因为全切分没有歧义检测功能,最终分词结果的正确性和完整性依赖于独立的歧义处理方法。如果评价错误,也会造成错误的结果。
2)全切分的切分结果数量随着句子长度的增加呈指数增长。一方面会导致海量无用数据充斥存储数据库;另一方面,当句子长度达到一定长度时,由于分割形式过多,分割效率严重降低。
基于词频统计的分词方法:
这是一种全分割方法。它不依赖词典,而是统计任意两个单词同时出现的频率,频率越高,越有可能是一个单词。首先,对所有可能匹配词汇的词进行切分,并使用统计语言模型和决策算法确定最佳切分结果。它的优点是可以发现所有的分词歧义,并且可以很容易地提取新词。
4)基于知识理解的分词方法

推荐阅读