概率图模型
-
- 1. 模型的表示
-
- 1.1 有向图模型
- 1.2 常见的向图模型
-
- 1.2.1 Sigmoid信念网络
- 1.2.2 简单贝叶斯分类器
- 1.2.3 隐马尔科夫模型
- 1.3 无向图模型
- 1.4 无向图模型的概率分解
- 1.5 常见的无向图模型
-
- 1.5.1 对数线性模型
- 1.5.2 条件随机场
- 1.6 有向图和无向图之间的转换
- 2. 学习
-
- 2.1 估计不含隐变量的参数
- 2.2 估计含隐变量的参数
-
- 2.2.1 EM算法
- 2.2.2 高斯混合模型
- 3. 推断
-
- 3.1 精确推断
-
- 3.1.1 变量消除法
- 3.1.2 信念传播算法
- 3.2 近似推断
- 4. 近似推断-变分推断
- 5. 基于采样法的近似推断
-
- 5.1 采样法
- 5.2 拒绝采样
- 5.3 重要性采样
- 5.4 马尔科夫链蒙特卡罗
-
- 5.4.1 Metropolis-Hastings 算法
- 5.4.2 Metropolis 算法
- 5.4.3 吉布斯采样
- 6. 总结
其中, x k x_k xk表示变量 X k X_k Xk的取值,如果某些变量之间存在条件独立性,其参数量就可以大幅减少 假设四个二值变量 X 1 , X 2 , X 3 , X 4 X_1, X_2, X_3, X_4 X1,X2,X3,X4,在不知道这几个变量依赖关系的情况下,可用一个来记录每一种取值的概率 p ( x 1 : 4 ) p(\pmb{x}_{1:4}) p(xxx1:4),共需要 2 4 − 1 = 15 2^4-1=15 24−1=15个参数,假设已知 X 1 X_1 X1, X 2 X_2 X2和 X 3 X_3 X3独立,即有:
在已知 X 2 X_2 X2和 X 3 X_3 X3时, X 4 X_4 X4和 X 1 X_1 X1独立,即有:
那么联合概率 p ( x ) p(\pmb{x}) p(xxx)可分解为:
是4个局部条件概率的乘积,分别用4个表格来记录4个条件概率,只需1+2+2+4=9个独立参数。 当概率模型中参数多时,其条件依赖关系也复杂,可用图结构方式将模型可视化,简洁描述随机变量之间的条件独立性,并将复杂模型分解为多个简单模型,如图是上述例子的4个变量间的条件独立性的图形化描述,节点表示一个变量,每条边表示变量之间的依赖关系:
- 表示问题:对于一个概率模型,如何通过图结构来描述变量之间的依赖关系
- 学习问题:图模型的学习包括图结构、参数的学习,本文只关注给定图结构时的参数学习,即参数估计问题
- 推断问题:已知部分变量,计算其他变量的条件概率分布
很多机器学习模型都可以归纳为,即建模输入和输出之间的条件概率分布,故,图模型提出了一新角度来解释机器学习模型。这角度优点:了解不同机器学习模型间的联系,方便设计新模型。机器学习中,图模型越来越多被用于设计和分析学习算法。
1. 模型的表示
图由一组和节点之间的组成,在概率模型中,每个都表示一(或),表示这些随机变量之间的。
常见的概率图模型分为:和:
- 有向图模型的图结构为(Directed Acyclic Graph,DAG)。如果两个节点之间有连边,表示对应的两变量为,即不存在其他变量使得这两个节点对应的变量条件独立
- 无向图模型使用描述变量之间的关系,代表两个变量之间有,但不一定是
两个示例如下,分别表示四个变量 { X 1 , X 2 , X 3 , X 4 } \{X_1, X_2,X_3,X_4\} { X1,X2,X3,X4}之间的依赖关系,图中表示可观测到的变量,表示,表示两变量间的:
1.1 有向图模型
(Directed Graphical model),也称为(Bayesian Network),或(Belief Network,BN),是一类用有向图来描述随机向量概率分布的模型。 在贝叶斯网络中,如果两个节点直接连接的,他们肯定是非条件独立的,是,父是因,子是果。 如果两个节点不是直接连接,但有一条经过其他节点的路径来连接,那么这两个节点之间的条件独立性比较复杂。以三个节点的贝叶斯网络为例,三个节点 X 1 , X 2 , X 3 X_1, X_2,X_3 X1,X2,X3,其中 X 1 X_1 X1和 X 3 X_3 X3不直接连接,通过节点 X 2 X_2 X2连接,这三个节点之间可以有四种连接关系:
- 间接因果关系(图a):当 X 2 X_2 X2已知时, X 1 X_1 X1和 X 3 X_3 X3为条件独立
- 间接果因关系(图b):当 X 2 X_2 X2已知时, X 1 X_1 X1和 X 3 X_3 X3为条件独立
- 共因关系(图c):当 X 2 X_2 X2未知时, X 1 X_1 X1和 X 3 X_3 X3是不独立的;当 X 2 X_2 X2已知时, X 1 X_1 X1和 X 3 X_3 X3为条件独立
- 共果关系(图d):当 X 2 X_2 X2未知时, X 1 X_1 X1和 X 3 X_3 X3是独立的;当 X 2 X_2 X2已知时, X 1 X_1 X1和 X 3 X_3 X3不独立
对一个更一般的贝叶斯网络,其为:每个随机变量在给定父节点的情况下,条件独立于它的非后代节点,其中 Z Z Z 为 X k X_k Xk的非后代变量:
1.2 常见的有向图模型
许多经典的机器学习模型如朴素贝叶斯分类器、隐马尔可夫模型、深度信念网络等,可用有向图模型来描述。
1.2.1 Sigmoid信念网络
为减少模型参数,可使用来建模有向图中的,一种简单的参数化模型为Sigmoid信念网络。 (Sigmoid Belief Network,SBN)中的变量取值为{0,1},对于变量 X k X_k Xk和它的父节点集合 π k \pi_k πk,其条件概率分布表示为: 其中 σ ( ⋅ ) \sigma(\cdot) σ(⋅)是Logistc函数, θ i \theta_i θi是可学习的参数,假设变量 X k X_k Xk的父节点数量为 M,如果使用表格来记录条件概率需要 2 M 2^M 2M个参数,如果使用参数化模型只需要M+1个参数。如果对不同的条件概率都共享使用一个参数化模型,其参数数量又可以大幅减少。 Sigmoid信念网络与Logistic回归模型都采用Logistic函数来计算条件概率。如果假设Sigmoid信念网络中只有一个叶子节点,其所有的父节点之间没有连接,且取值为实数,那么Sigmoid信念网络的网络结构和Logistic回归模型类似:
这两个模型区别在于,Logistic回归模型中的 x \pmb{x} xxx作为一种确定性的参数,而非变量,因此,Logistic回归模型只建模条件概率