词性 一起来看看词性标注

本文根据自己的学习过程和查阅相关资料的了解,对自然语言基本技术的词性标注做了一个比较全面的简要介绍,包括其定义、目前的难点和常用方法,同时也推荐了大量Python实用工具,包括工具的使用。
01
词性定义
维基百科对词类的定义是:在传统语法中,词类(缩写形式:pos或pos)是一类具有相似语法属性的词(或者更一般地说,是词汇项)。
词类是指根据词的特征对词类进行的分类。词性是一种语言术语,是一种语言中单词的语法分类。它是根据语法特征(包括句法功能和形态变化)并考虑词汇意义来划分单词的结果。
从组合和聚合的角度来看,词性是指一种语言中许多句法功能相同、组合位置相同的词聚合而成的范畴。词性是最常见语法的集合。词类的分类是有层次的。比如在汉语中,词可以分为实词和虚词,其中实词包括体词和谓语,体词又可以分为名词和代词。
词性标注是判断给定句子中每个词的语法类别,确定其词性并标注的过程,也是自然语言处理中非常重要的基础工作。词性标注的研究由来已久。在研究者长期的研究总结中,发现汉语词性标注存在很多棘手的问题。
02
汉语词性标注的难点
汉语是一种缺乏词的形态变化的语言,不能像印欧语那样直接从词的形态变化来判断词的类别。
普通词汇属于同一范畴的现象严重。《现代汉语八百词》收录的常用词中,并发词的比例高达22.5%,并且发现常用词越多,用法越不一样。由于词性范畴的使用程度很高,涉及汉语的大部分词类,汉语文本中词类的消歧任务是巨大的。
研究者主观原因造成的困难。语言学中词类划分的目的和标准仍然存在差异。目前,汉语词类划分没有一个统一的、被广泛接受的标准,词类划分的粒度和标注符号也不统一。词性和标记符号集分类标准的差异,以及分词规范的模糊性,给中文信息处理带来了很大的困难。
03
词性标注的常用方法
词性标注的研究很多。介绍了几种常用的词性标注方法,包括基于规则的词性标注、基于统计模型的词性标注、基于统计方法和规则方法相结合的词性标注以及基于深度学习的词性标注。
基于规则的词性标注方法
基于规则的词性标注是人们提出的一种早期词性标注方法。其基本思想是根据搭配关系和语境构建词性消歧规则。早期的词性标注规则通常是手工构建的。
随着标注语料库规模的增加,可利用的资源越来越多。这时候手工提取规则显然是不现实的。因此,人们提出了一种基于机器学习的自动规则生成方法。
基于统计模型的词性标注方法
统计方法将词性标注视为一个序列标注问题。基本思想是,给定带有各自标签的单词序列,我们可以确定下一个单词最可能的词性。
目前有隐马尔可夫模型(HMM)和条件随机场(CRF)等统计模型,可以使用带有标注数据的大型语料库进行训练,标注数据是指每个词都被赋予正确词性标注的文本。
基于统计方法和规则方法相结合的词性标注方法
理性主义和经验主义的结合一直是自然语言处理领域的专家们一直在研究和探索的问题,词性标注问题也不例外。
这种方法的主要特点在于对统计标注结果的筛选,只有那些被认为可疑的标注结果才是模糊的,而不是在所有情况下都同时使用统计方法和规则方法。
基于深度学习的词性标注方法
可以看作是序列标记的任务。目前解决序列标记任务的常用深度学习方法有LSTM+CRF、BiLSTM+CRF等。
值得一提的是,这几年有很多关于这种方法的文章,想了解更多这一块的朋友可以看这里:

推荐阅读