序列标注模型
输出是一个结构化的标签序列,通常,标签之间是相互联系的,构成了标签的结构信息。利用这些结构信息,可以达到比传统分类方法更高的性能。所以,序列标注问题不是一个传统的分类问题,而是一个复杂的结构化机器学习问题。
第一章
主要是概括的介绍序列标注模型。
上世纪60年代,HMM是最早应用于标注任务的模型。该模型是一个生成式模型,将序列的标签看做是一个隐状态序列,观测的序列是由隐状态序列产生的,因此需要建立观测序列和隐状态序列孩子间的联合概率分布。
条件随机场和最大熵的方法是判别式模型,可以利用大量甚至冗余的特征拟合标签序列的条件分布概率,当用作训练的数据非常多的时候往往会取得更高的性能。
判别模型
建一个从句子$x=(x_1, x_2, …, x_l)$到标签$y=(y_1, …, y_l)$的函数。
为了建立x和y的函数关系,一般情况需要用一组特征函数向量化这两个序列。变成特征向量:
这一过程称之为特征抽取或者特征表示
距离而言,我们可以定义$\phi_1(x, y) = 1$可以表示为:当且仅当当前词是“我”,且y=’名词’。
特征函数通常需要手动设计。
使用线性模型
但是,在序列标注模型中,通常标签都是互相联系的。所以,需要时更好的方法来解决这个问题。
第二章 相关工作
语素:语言的最小单位。
序列标注任务实际上是为句子中的每一个语素标上一个具有特征含义的符号。
模型介绍
对数线性模型
NLP任务中,通常利用上下文作为特征,但是这样的特征是高维且稀疏的特征。
在高维空间中,通常样本之间是线性可分的。所以,采用对数线性模型。
上式通过softmax函数,可以得到条件分布函数。
这种形式叫做对数线性模型,比如,最大熵模型,条件随机场,句法分析模型等。
链式条件随机场
链式随机场是一个无向图模型。根据概率图模型的理论,x和y之间可以建立如下的条件概率模型: