结构化概率模型是使用图来描述概率分布中的随机变量之间的相互作用关系,从而描述一个概率分布。这些模型也叫做图模型。
非结构化建模的挑战
在分类问题中,会丢弃掉输入数据中大多数的信息,然后产生单个的输出。比如在识别一张图片的时候,模型会丢弃掉背景图片的信息。
对多随机变量的分布进行建模,是一个非常具有挑战性的任务,假设我们对二值分布进行建模,对于32x32的图像,存在着$2^{3071}$种可能。
结构化图模型为随机变量之间的直接作用提供了一个正式的框架。这个方式大大减少了模型的参数,模型只需要少量的数据就可以进行有效估计了。
使用概率图模型描述模型结构
图模型中,每个节点表示变量,每条边表示直接相互作用的关系。只有直接的相互作用才会被建模表示出来。
有向模型
又称作,贝叶斯网络
变量x通过有向无环图$G$和一些列的局部概率分布得到
通过这种表示可以大大减少存储的参数个数。
无向图
又称为,马尔科夫随机场
有向图模型适用于存在一个很明显的理由描述每一个箭头的时候。变量之间存在着因果关系的情况下。
然后,并不是所有的情况都是具有明确的方向关系。当相互左右的并没有本质的方向,使用无向图更适合。
举个例子,你是否生病,你同事是够生病,以及你的室友是够生病。这种相互传染的关系应为没有一个明确的方向,所以,我么会使用无向图去描述关系。
其中,团是指图中节点的一个子集,其中的每个节点都是全连接的。
配分函数
我们需要对为归一化的概率函数进行归一化:
归一化的常数Z被称作是配分函数。
有向模型和无向模型之间的一个重要的区别就是有向模型是通过从起始点的概率分布直接定义的,反之无向模型的定义显得更加宽松,通过$\phi$函数转化为概率分布而定义
基于能量的模型
无向图中的许多理论都是基于对于所有的x,p(x) > 0。为了满足这个条件,最简单的是使用基于能量的模型
。
其中
$$ \hat{p}(x) = exp(-E(x)) $$
E(x)表示能量函数。
分离和d-分离
图中隐含的条件独立性成为分离。