极大似然估计
已知观察样本 \{X_1, X_2, \cdots, X_n\},已知概率分布模型,估计概率分布模型中的参数,使得产生这个观察样本的可能性最大。
概率质量函数
概率质量函数 (Probability Mass Function) PMF 是离散随机变量在各特定取值上的概率: f_X(x) ,代表随机变量 X=x 时的概率。
累积分布函数
累积分布函数又称分布函数 (Camulative Distribution Function) CDF 。F(x) = P\{X \leq x\} 表示为随机变量小于等于某个值得概率,这个表达式称之为 X 的分布函数。
概率密度函数
概率密度函数 PDF 在 (-\infty , x] 上的积分其实就是分布函数 F(x) 的值。X 为连续随机变量。
伯努利分布
伯努利分布又称为两点分布或者 0-1 分布。伯努利实验是只有两种可能的单次随机试验。分布律为 P\{X=x\}= p^x(1-p)^{1-x}
二项分布
Binomial Distribution 是 n 重伯努利分布实验成功次数的离散概率分布,记为 X{\sim}B(n, p) 。
多项式分布
多项式分布 Multinomial Distribution 是二项分布的推广。一次实验可能产生 m 个结果,m 个结果发生的概率对立(和为1),则发生其中一个结果 X 次的概率就是多项式分布。
逻辑斯蒂分布
Logistic Distribution
先验概率
先验概率就是事情尚未发生之前,我们对事件的概率的估计。利用过去历史资料计算的得来的先验概率称之为客观先验概率;当历史资料无从取得或不完全取得时,凭借人们的主观经验判断而得到的概率称之为主管先验概率。
后验概率
通过调查或其他方式获取新的附加消息,利用贝叶斯公式对先验概率进行修正而到的概率。这是在考虑了一个事实之后的条件概率。
似然函数
似然函数是一种统计模型参数 \theta 的函数,反应的是样本发生的概率。数学表达式为 L(\theta) = L(x_1, x_2, ..., x_n ; \theta_1, \theta_2, \cdots, \theta_n) 。参数 \theta 不同,事件 A 发生的概率P(A\mid\theta)也不同。在离散随机变量上L(\theta) = L(x_1, x_2, \cdots, x_n;\theta) = \prod_{i=1}^nP(x_i;\theta) 。对似然函数取对数即为对数似然函数。
极大似然估计法原理就是固定样本观测值 (x_1,x_2,\cdots,x_n) 挑选参数 \theta ,使 L(x_1,x_2,\cdots,x_n;\hat{\theta})=maxL(x_1,x_2,\cdots,x_n;\theta) 。在误差服从正态分布的前提下,最小二乘法与极大似然估计思想本质上是相同的。
条件概率
事件 A 在另外一个事件 B 已发生情况下的概率 P(A\mid B) 。
方向导数
方向导数可以理解为对某一维的偏导的左右两个导数。
梯度
所有方向导数中只存在一个最大值(一个面过一点的切平面只有一个,过这一点的所有切线方向都会在这个切平面上)。梯度是一个向量,梯度的方向是此点方向导数取得最大值时的方向,梯度的值是方向导数的最大值。对每一个点 (x_0,y_0) 可以定义出一个向量 f_x(x_0,y_0)\vec{i} + f_y(x_0,y_0)\vec{j} 为P点的梯度 \Delta{f(x_0,y_0)} 。
几率
几率(odds) 指事件发生与不发生的概率比值。若发生的概率为 p , odds = \frac{p}{1-p} .
对数几率 (log odds 或 logit) logit(p) = log\frac{p}{1-p}.