分词中文分词技术是什么

编者按:中文分词是指将一个汉字序列分割成单个单词。分词是将连续的单词序列按照一定的规范重组为单词序列的过程。我们知道，在英语写作中，空是作为单词之间的自然定界符，而在汉语中，只有单词、句子、段落可以简单地用明显的定界符来划界，而单词没有形式上的定界符。虽然英语也有分短语的问题，但在单词层面，汉语比英语复杂难懂得多。当我们了解了中文分词技术之后，就可以更好的对其进行改进，这也可以说是一项人们需要掌握的技术。

文章图片

1.为什么要做中文分词？
单词是可以独立移动的最小的有意义的语言成分。英语单词以空为自然定界符，汉语单词为基本书写单位，单词之间没有明显的区分标记。因此，中文词语分析是中文信息处理的基础和关键。
Lucene中的中文处理是基于自动分词或二进制分词的。另外还有最大分割(包括前向、后向、前后结合)、最小分割、全分割等等。
二、中文分词技术的分类
我们讨论的分词算法可以分为三类:基于词典和词库匹配的分词方法；基于词频统计的分词和基于知识理解的分词。
第一种方法是利用字典匹配、中文形态学或其他中文语言知识进行分词，如最大匹配法和最小分词法。这种方法分词简单高效，但由于汉语语言现象的复杂性和丰富性、词典的完备性和规则的一致性，很难适应大规模开放文本分词。第二类统计分词方法是基于词的统计信息，如相邻词之间的信息、词频和对应的共现信息等。由于这些信息是通过调查真实语料获得的，因此统计分词方法具有较好的实用性。
下面简单介绍几种常用方法:
1)逐词遍历
逐词遍历按照从长到短的顺序逐词搜索字典中的所有单词，直到文章结束。也就是说，不管文章多短，字典多大，字典都要遍历一次。这种方法效率低，通常不使用较大的系统。
2)基于词典和词库匹配的分词方法(机械分词方法)
该方法根据一定的策略将待分析的中文字符串与“足够大”的机器词典中的条目进行匹配。如果在字典中找到某个字符串，则匹配成功。对一个单词进行识别，根据扫描方向的不同分为正向匹配和反向匹配。根据不同长度的优先匹配，可分为最大(最长)匹配和最小(最短)匹配。根据是否与词性标注结合，可分为简单分词法和分词标注结合的综合方法。常用方法如下:
(一)最大匹配法通常简称MM法。
基本思想是:假设分词词典中最长的词有I个汉字，将处理后文档的当前字符串中的前I个词作为匹配字段进行词典搜索。如果字典中有这样一个I字，则匹配成功，匹配字段被分割为一个字。如果在字典中找不到这样的I字，匹配失败，匹配字段中的最后一个字被删除，剩下的字符串重新匹配……以此类推，直到匹配成功，即切掉一个字或者剩下的字符串长度为零。这样就完成了一轮匹配，然后匹配下一个I字串，直到扫描完文档。
该算法描述如下:
初始化当前位置计数器，设置为0；
从当前计数器开始，取前2i个字符作为匹配字段，直到文档结束；
如果匹配字段的长度不为0，将在字典中匹配相同的长度。
如果匹配成功，那么，
a)将匹配字段划分为一个单词，并将其放入分词统计表中
b)将当前位置计数器的值与匹配字段的长度相加
c)跳到步骤2)
否则
a)如果匹配字段的最后一个字符是中文字符
(1)删除匹配字段的最后一个单词；
②匹配场长度减少2；

分词中文分词技术是什么

推荐阅读

黑木耳的作用

鼻子掉皮怎么办呢

人流后不孕原因有哪些

汽车里面有雾气怎么办

八恶人的演员

为什么说距离产生美

猫和老鼠威廉退尔序曲哪一集

北京通州李家羊汤怎么样

担保人要承担的法律责任有哪些

重阳节饮什么酒菊花酒最为应景

本科是不是一本

民间针灸绝技方法是什么

电源模块vo1和vo2是什么意思

云南2024年高三省联考第一次考试时间一览

埃及金字塔有哪些令人惊异的地方

经期能吃羊蝎子吗

三个字简短有气势的口号三个字口号大全霸气十足

在健身房用跑步机快走和跑步那个可以瘦腿

无火锅不冬天是什么意思

早上做什么早餐早餐吃什么?

分词 中文分词技术是什么

推荐阅读

分词中文分词技术是什么