分词 中文分词技术是什么( 四 )
ICTCLAS 3.0商业版收费,ICTCLAS 3.0免费共享版不开源。词库是以《人民日报》一个月的语料库为基础,很多词是不存在的。因此,我使用反向最大匹配算法,根据一个自定义的90,000个单词的词典(不与ICTCLAS词典中的单词重复)合并ICTCLAS分割结果,并输出最终的分割结果。
因为ICTCLAS 3.0共享版只支持GBK编码,如果字符串是UTF-8编码,可以用PHP的iconv函数转换成GBK编码,然后用phpcws_split函数处理,最后转换回UTF-8编码。
这篇文章是从www.ctufo.com转来的
推荐阅读
- 《魔兽世界》老外集体学中文,国服开荒团人麻了
- 魔兽TBC测试服刚上线,老外就狂飙中文求组队!国服玩家看懵了
- 《宝可梦传说阿尔宙斯》1月28日登陆switch支持简体中文
- funk什么意思中文 中文说唱 已成流行
- 咪蒙承认离婚 迷蒙是谁?咪蒙承认离婚:毕业于山东大学中文系 代表作有哪些?
- 众明星为考生助威 众体育明星为高考生助威 贝克汉姆说中文梅西举标语
- 极道鲜师国语版 三浦春马曾和刘诗诗合作 中文南北发音不同让他崩溃
- 福原爱说东北话 福原爱东北话哭问记者怎么回事 福原爱为什么会说中文
- 菅田将晖中文怎么读 GD菅田将晖谁更配小松菜奈 她的男友究竟是谁
- jyj组合 韩国人气组合JYJ北京开个唱 大秀中文和汉字