分词 中文分词技术是什么( 三 )


这种方法主要是以句法和语法分析为基础,结合语义分析,通过分析语境提供的信息来进行分词。它通常包括三个部分:分词子系统、句法语义子系统和总控部分。在总控部分的协调下,分词子系统可以获取单词和句子的句法语义信息,判断分词的歧义性。这种方法试图使机器具有人类的理解能力,需要使用大量的语言知识和信息。由于汉语语言知识的普遍性和复杂性,很难将各种语言信息组织成机器可读的形式。因此,基于知识的分词系统还处于实验阶段。
5)一种新的分词方法
并行分词方法:这种分词方法是借助于包含一个词库的流水线进行的,比较匹配过程是一步一步进行的。每一步都可以同时将进入管道的单词与词库中对应的单词进行比较。因为同时有很多词可以比较匹配,所以分词速度可以大大提高。该方法涉及多级内码理论和流水线字典数据结构。
常用中文分词软件包
1.熟练熟练的牛分词包,适合与Lucene集成。
我的中文分词库是用Java开发的中文搜索引擎分词组件,可以结合Lucene应用,用于互联网和内网。
宝鼎填补了国内中文分词开源组件的空空白,并致力于此,希望成为互联网网站中文分词首选开源组件。宝鼎中文分词追求分词效率高,用户体验好。
宝鼎的刀具中文分词效率高,可扩展。引入隐喻,采用完整的面向对象设计和先进的概念。
高效率:在PIII 1G内存个人机上,一秒钟就能准确分割一百万个汉字。
使用无限数量的字典文件来有效地分割文章,以便对词汇进行分类和定义。
能合理分析未知单词
2.LingPipe,开源自然语言处理的Java开源工具包。
功能很强大,最重要的是文档超级详细,每个模型连参考论文都列出来了,不仅好用,而且非常适合学习模型。
顶级分类、命名实体识别、词性标注、句子检测、查询拼写检查、中间短语检测、聚类、字符语言建模、医学文献下载/解析/索引(MEDLINE下载、解析和索引)、数据库文本挖掘、中文分词、情感分析、语言识别等
3.JE分词软件包
4.LibMMSeg
用C++开发,支持Linux和Windows两种平台,分段速度在300K/s左右(PM-1.2G)。
LibMMSeg在速度上还没有仔细优化,分割速度应该还是要提高空。
5.http://www.oschina.net/p/ikanalyzer知识分析器
IKAnalyzer是基于lucene2.0 API开发的,实现了基于字典分割的前向和后向全分割算法,是LuceneAnalyzer接口的实现。
该算法适用于具有互联网用户搜索习惯和企业知识库的搜索。用户可以用句子覆盖的中文单词进行搜索,比如用“人”搜索包含“人民币”的文章,这是大多数用户的搜索思路;
不适合知识挖掘和网络爬虫技术,总切分法容易造成知识歧义,因为“人”和“人民币”在语义上是完全不相关的。
6.http://www.oschina.net/p/phpcws
PHPCWS是PHP中文分词的开源扩展,目前只支持Linux/Unix系统。
PHPCWS首先使用“ICTCLAS 3.0共享中文分词算法”的API进行分词,然后使用自写的“反向最大匹配算法”进行分词和组词,并添加标点过滤功能,获得分词结果。
Ictclas(计算技术研究所汉语词法分析系统)是中国科学院计算技术研究所基于多层隐马模型开发的汉语词法分析系统。其主要功能包括中文分词。词性标注;命名实体标识;新词识别;它还支持用户词典。经过五年的精心打造,ICTCLAS已经六次升级到ICTCLAS3.0。分词准确率98.45%,各种词典数据压缩后小于3M。ICTCLAS在国内973专家组组织的评估中获得第一名,在第一家国际中文加工研究机构SigHan组织的评估中获得多项第一名。ICTCLAS是目前世界上最好的汉语词法分析器。

推荐阅读