一些数学知识的记录

机器学习菜鸟,记录一些数学笔记,方便自己阅读和理解。

期望E的下标

地址一
地址二

  • 将下标符号中的变量作为条件

例子一:

E_{X}[L(Y, f(X))] = E[L(Y, f(X)) | X]

例子二:

E_{X}[h(X,Y)] = E[h(X,Y) | X] = \int_{\infty}^{- \infty} h(x,y) f_{h (X,Y) | X} (h(x,y) | x) dy

  • 将下标符号中的变量用作计算平均

例子一:

E_{X}[L(Y, f(X))] = \sum_{x \in X} L(Y, f(X)) P(X =x)

例子二:

E_{X} \sum_{k=1}^{K}[L(c_k,f(X))] P(c_k | X) = E \sum_{x \in X} [L(c_k,f(X)) P(c_k | X=x)] P(X=x)

例子三:

E_{X}[h(X,Y)] = \int_{\infty}^{- \infty} h(x,y) f_{X} (x) dx

期望的一些公式

  • 离散型: E(X) = \sum x_i p(x_i)
  • 连续性 : E(X) = \int xf(x) dx
  • 如果X是连续型随机变量,那么随机变量函数Y=g(X) 的数学期望是E(Y) = E(g(X)) = \int g(x)f(x) dx
  • 二维随机变量(X, Y) 的分布律为P\{ X=x_i, Y=y_j\}, i,j = 0,1,2,..., 对于g(X,Y), 数学期望为 Eg(X,Y) = \sum_i \sum_j g(x_i,y_j)p_{i,j}
  • 二维随机变量(X, Y) 的密度函数非(x.y), 数学期望为 Eg(X,Y) =\int g(x,y)f(x,y)dxdy
  • E[\sum_{i=1}^n a_i X_i + b ] =\sum_{i=1}^n a_i E(X_i) + b
  • 如果随机变量相互独立 E(X_1X-2 \cdots X_n) = E(X_1)E(X_2)...E(X_n)
  • E(CX) = CE(X)
  • E(X+Y) = E(X) + E(Y)
  • E(X) = \sum_i E(X | A_i) P (A_i)

条件分布

来自于这里

  • 连续性随机变量, 二维随机变量(X,Y)的联合密度函数为p(x,y), 边缘密度函数分别为p_X(x), p_Y(y), 在Y=y的条件下, X的条件密度函数为p(x | y) = \frac {p(x, y)}{p_Y(y)}. 在X=x的条件下, Y的条件密度函数为p(y | x) = \frac {p(x, y)}{p_X(x)}.
  • 从以上两个式子可知:p(x, y) = p_X(x) p(y | x)p(x, y) = p_Y(y) p(x | y)
  • 也就是说,连续场合下的全概率公式:p_Y(y) = \int p(x, y) dx = \int p_X(x) p(y | x) dx, P_X(x) = \int p(x, y) dy = \int p_X(x) p(x | y) dy
  • 因此,连续场合下的贝叶斯公式是; p(x | y) = \frac { P_X(x) p(y | x)}{ \int P_X(x) p(y | x) dx}. , p(y | x) = \frac { P_Y(y) p(x | y)}{ \int P_Y(y) p(x | y) dy}
  • 一些公式
    E(X) = \int \int x p(x,y) dx dy
    E[E(X| Y)] = \int E(X| Y =y ) \cdot P_y(y) dy. 这是因为,我们可以将 E(X| Y)看作是y的函数,给定一个条件y,就产生一个确定的的值, 说明该随机变量的概率依赖于y, 则概率密度函数为P_Y(y), 从而,期望是变量和概率密度函数的积分。

-Y是离散型随机变量: E(X) = E[E (X | Y)] = \sum_j E(X | Y = y_i) \cdot P(Y=y_j)

  • -Y是连续型随机变量: E(X) = E[E (X | Y)] = \int E(X |Y=y_j) \cdot P(Y=y) dy

条件期望

  • Y = y的条件下, X的期望.
  1. XY离散场合下: E( X | Y = y) = \sum_i x_i P(X = x_i | Y = y) = \sum_i x \frac{P(X=x_i, Y=y)}{P(Y=y)}
  2. X是连续, Y是离散场合下: E( X | Y = y) = \int xp(x | y) dx
  3. X,Y都是连续性随机变量, 联合密度函数为f_{X,Y}(x,y), Y的密度函数为f_Y(y)X的条件密度函数概率f_{X | Y}(x|y) = \frac{f_{X,Y}(x,y)}{f_Y(y)}, 则E(X | Y=y) = \int xf_{X|Y}(x|y) dx = \frac{1}{f_Y(y)} \int xf_{X,Y}(x,y)dx
  • X = x的条件下, Y的期望.
    离散场合下: E( Y | X = x) = \sum_i y_i P(Y = y_i | X = x)
    连续场合下: E( Y | X = x) = \int yp(y | x) dy

先验、后验、似然和贝叶斯

  • 首先, 我们熟知的贝叶斯是这样的;
    P (\theta | x) = \frac{P(x | \theta) \times P(\theta)}{P(x)}, 即
    .

我们可以把\theta理解为原因(模型参数), x理解为结果(样本). P(x | \theta) 是似然分布, P(\theta |x) 是后验概率, P(x ) 是证据, P(\theta) 是先验分布.

  • 一般来说, 先验代表的是人们抽样前对参数的认识(\theta的估计), 后验代表的人们抽样之后对参数的认识,所以后验可以理解为根据抽样信息对先验的调整。

最大似然

这个写的好
这个写也很好

  • 首先区分概率和统计: 概率是已知模型和参数,推数据。统计是已知数据,推模型和参数

    1. 概率:已知一个模型和参数,预测模型产生结果的特性(均值、方差等)。 比如,我想研究养花(模型),然后想好了买啥化,怎么养(参数),最后这花养的到底怎么样(结果)
    2. 统计:利用数据推断模型的和参数。我有很多花,想根据品相判断咋样的。
  • P(x| \theta): x表示一个具体的数据, \theta表示模型的参数。

    1. 如果 \theta已知,x是变量,这个叫做概率函数
    2. 如果 x已知,\theta是变量,这个叫做似然函数
  • 似然的本质是说,利用已知样本的信息,得到最大概率导致这些样本出现的模型参数。比如,我扔10次硬币,得到一组数据(x_0),结果6次正面朝上,那根据最大似然,我模型的参数是最有可能得到6次正面朝上的参数, 即f(x_0, \theta) = \theta^6(1-\theta)^4,
    我就求\theta使这个函数的值最大就行. , 即\theta=0.6

最大后验

  • 有人说,硬币正面朝上应该是0.5的概率,这就是我们引入了先验的思想。
  • 最大似然是求\theta使得P(x_0 | \theta)最大。 最大后验是求的\theta使得P(x_0 | \theta) p(\theta) 最大, 不止似然最大,而且是在先验的时候最大(这有点像正则化里加惩罚项的思想,不过正则化里是利用加法,而最大后验里是利用乘法)。 即
    P (\theta | x_0) = \frac{P(x_0 | \theta) \times P(\theta)}{P(x_0)}
    这里面P(x_0)就是样本本身,是一个已知值。 当我们认为认为\theta是均匀分布时(就是没提供啥有用的信息进来),似然=后验。

最大化似然的公式:

最大后验公式:

  • 由于P (\theta | x_0) = \frac{P(x_0 | \theta) \times P(\theta)}{P(x_0)} 中的P(x_0), 在给定任意的\theta时总是常数, 对\theta_{MAP}没有任何影响,所以不影响求极值。 最大化最大后验的公式为:

因此最大化后验就是在最大化似然函数之上加了一个先验分布, 所以当先验为均匀分布时(也就是信息确实),两者相等。

经验风险最小化和结构风险最小化

这个写的好

经验风险最小化与结构风险最小化是对于损失函数而言的。可以说经验风险最小化只侧重训练数据集上的损失降到最低;而结构风险最小化是在经验风险最小化的基础上约束模型的复杂度,使其在训练数据集的损失降到最低的同时,模型不至于过于复杂,相当于在损失函数上增加了正则项,防止模型出现过拟合状态。这一点也符合奥卡姆剃刀原则:如无必要,勿增实体。

经验风险最小化可以看作是采用了极大似然的参数评估方法,更侧重从数据中学习模型的潜在参数,而且是只看重数据样本本身。这样在数据样本缺失的情况下,很容易管中窥豹,模型发生过拟合的状态;结构风险最小化采用了最大后验概率估计的思想来推测模型参数,不仅仅是依赖数据,还依靠模型参数的先验假设。这样在数据样本不是很充分的情况下,我们可以通过模型参数的先验假设,辅助以数据样本,做到尽可能的还原真实模型分布。

信息熵

  • 信息熵的定义:
    H(X) = - E_{x \backsim p}[\log p(x)] = - \sum_i P(x_i) \log P(x_i) = - \int p(x) \log p(x)dx
    香农熵的本质是香农信息量\log(\frac{1}{p})的期望,代表了一个系统的不确定性,信息熵越大, 不确定性越大。 P是一个事件的概率,概率越大,不确定性越小。

交叉熵

  • p为真实分布,q为非真实分布,交叉熵越低,意味着q约接近p
    H(p, q) =- E_{x \backsim p}[\log q(x)] = -\sum_x p(x) \log q(x) = - \int p(x) \log q(x)dx

相对熵(KL散度)

  • 衡量两个分布之间的差异,相对熵就是交叉熵减去信息熵
    D_{KL}(p || q) = E_{x \backsim p}[\log \frac{p(x)}{q(x)}] = - \sum_i p(x) \log \frac{q(x)}{p(x)} = H(p,q)-H(p)

互信息

  • 互信息在信息论和机器学习中非常重要,其可以评价两个分布之间的距离,这主要归因于其对称性,假设互信息不具备对称性,那么就不能作为距离度量。即相对熵,由于不满足对称性,故通常说相对熵是评价分布的相似程度,而不会说距离。
  • 互信息的定义:一个随机变量由于已知另一个随机变量而减少的不确定性。
    I(X,Y) = \sum_{x,y} p(x,y) \log \frac{p(x,y)}{p(x)p(y)} = H(X) - H(X|Y) = H(Y) - H(Y |X)

联合熵

H(X, Y) = - \sum_{x \in X}\sum_{y \in Y}p(x, y)\log p(x, y)

条件熵

  • 条件熵的定义为:在X给定条件下,Y的条件概率分布的熵对X的数学期望。

H(Y | X) = E_{x \backsim p} [H(Y | X = x)] = \sum_{i=1}^n p(x) H(Y| X=x)
= - \sum_{i=1}^n p(x) \sum_{j=1}^m p(y|x) \log p(y|x) = - \sum_{i=1}^n \sum_{j=1}^m p(x,y)\log p(y|x)
因此, H(X| Y) = H(X,Y) - H(Y)

变分推断

看了这个, 我觉得目前写的最清楚的

重参

  • 一直不是很理解,为什么VAE中采样的结果不可导,需要重参。 看了这个才明白。
image.png

EM算法

看了这个, 我觉得目前写的最清楚的

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,718评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,683评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,207评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,755评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,862评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,050评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,136评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,882评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,330评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,651评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,789评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,477评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,135评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,864评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,099评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,598评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,697评论 2 351

推荐阅读更多精彩内容