p319 - p330
今天在寝室宅了一天
或者说玩了一天:)
晚上好运吧
进入第14章
第14章 概率图模型
14.1 隐马尔科夫模型
概率模型提出了一种描述框架,将学习任务归结于计算变量的概率分布。
生成式vs判别式
生成式考虑的是建立联合分布P(Y,R,O)
判别式考虑条件分布P(Y,R|O)
概率图模型是一类用图来表达变量相关关系的概率模型。
节点表示一个或一组随机变量。
节点之间的边表示变量间的概率相关关系,即“变量关系图”。
根据边的性质不同,分为两类:
1)用DAG表示变量间的依赖关系,称为有向图或贝叶斯网
2)使用无向图表示变量相关关系,称为无向图模型或马尔科夫网。
隐马尔科夫模型(HMM)是结构最简单的贝叶斯网。有向图模型、
状态变量、观测变量。
状态转移概率矩阵A,输出观测概率矩阵B,初始状态概率π。
通过制定状态空间、观测空间、ABπ就能确定一个隐马尔科夫模型。
产生观测序列的过程:
1)选择初始状态。
2)选择观测变量取值。
3)选择转移
4)重复(1)-(3)
实际应用中关注三个基本问题:
1)给定模型,如何有效计算产生观测序列的概率?即如何评估模型与观测序列的匹配程度。
例:根据以往观测序列计算当前时刻最有可能的观测值。
2)给定模型与观测序列,如何找到与观测最匹配的状态序列。
例:语音识别中根据观测信号推测状态序列(对应文字)
3)给定观测序列,如何确定模型参数使出现此序列的概率最大。
例:人工指定模型参数不靠谱,怎么学出来最好的参数。
14.2 马尔科夫随机场
马尔科夫随机场(MRF)是典型的马尔科夫网。
图中每个节点表示一个或一组变量,节点之间的边表示两个变量之间的依赖关系。
马尔科夫随机场有一组势函数,来定义概率分布函数。
马尔科夫随机场中,多个变量之间的联合概率分布能基于团分解成多个因子的乘积,每个因子仅与一个团相关。
用团太多了,所以只用极大团。
对条件独立性的定义:
见p32图14.3 若从点集A到点集B中的结点必须经过点集C中的结点,则称A和B被C分离,C称为“分离集”。
对马尔科夫随机场有:全局马尔科夫性,即给定两个变量子集的分离集,则这两个变量子集条件独立。
由全局马尔科夫性可获得两个推论:局部马尔科夫性,成对马尔可夫性。详细见p324-325。
对于势函数,非负且在所偏好的变量取值上有较大函数值。
14.3 条件随机场
隐马尔科夫与HMM都是生成式
条件随机场(CRF)是一种判别式,计算的是条件概率。
若图G中的每个变量yv都满足马尔科夫性,则(y,x)构成一个条件随机场。
主要讨论链式条件随机场,结构见p326图14.6
14.4 学习与推断
“条件分布”、“边际分布”
参数确定:称为参数估计或参数学习。
通常使用极大似然估计或最大后验概率估计。
若将参数视为待推测的变量,则参数估计很像“推断”。
推断问题的目标就是计算边际概率与条件概率。
推断方法大致分为两类:精确推断、近似推断。