分词 中文分词技术是什么( 四 )


ICTCLAS 3.0商业版收费,ICTCLAS 3.0免费共享版不开源。词库是以《人民日报》一个月的语料库为基础,很多词是不存在的。因此,我使用反向最大匹配算法,根据一个自定义的90,000个单词的词典(不与ICTCLAS词典中的单词重复)合并ICTCLAS分割结果,并输出最终的分割结果。
因为ICTCLAS 3.0共享版只支持GBK编码,如果字符串是UTF-8编码,可以用PHP的iconv函数转换成GBK编码,然后用phpcws_split函数处理,最后转换回UTF-8编码。
这篇文章是从www.ctufo.com转来的

推荐阅读