离散随机变量及其概率分布
一.随机变量
1.1随机变量
- 随机变量:假如一个变量在数轴上的取值依赖随机现象的基本结果,则称此变量为随机变量,常用大写字母X,Y,Z等表示,其取值用小写字母想,x,y,z等表示。假如一个随机变量仅数轴上的有限个或可列个孤立点,则称此随机变量为离散随机变量。假如一个随机变量的可能取值充满数轴上的一个区间(a,b),此变量称为连续随机变量。
- 离散随机变量常与计数过程联系在一起,而连续随机变量常与测量过程联系在一起。
1.2随机变量的概率分布
-
分布函数:
- 定义:设X为一个随机变量对任意实数x,事件“X<=x”的概率是x的函数,记为
这个函数称为X的累计概论分布函数,简称分布函数
- 性质:
- 0
- F(x)是非降函数
- F(x)是右连续函数
1.3概率分布的可列可加性公理
- 若A1,A2...是一系列互不相容事件,则有
二.离散随机变量
2.1离散随机变量的分布列
- 设X是离散随机变量,它的所有可能取值是x1,x2,...xn,...,假如X取xi的概率为
且满足一下条件
则称这组概率{P(xi)}为该随机变量X的分布列,或X的概率分布,
X | ... | ... | ||||
---|---|---|---|---|---|---|
P | ... | ... |
此外若果X是离散随机变量,已知X的分布列,容易写出X的分布函数,离散随机变量使用分布列更加方便,此外还可以使用线条图和直方图
2.2离散随机变量的数学期望
- 分赌本问题:数学期望起源于分赌本问题,十七世纪中叶,一位赌徒向法国数学家帕斯卡(1623-1662)提出一个使他苦恼长久的分赌本问题:甲乙两位赌徒相约,用掷硬币进行赌博,谁先赢三次就得到全部赌博100法郎,当甲赢了两次,乙赢了一次,他们都不愿意继续下去,问此时赌本应该如何分割?
- 离散随机变量的数学期望:设离散随机变量X的分布列为
则X的数学期望为
若无穷级数存在,即数学期望存在,若无穷级数不收敛,即该随机变量X的数学期望不存在
2.3二项分布
- 定义:设X为贝努力试验中成功的次数,则X的可能取值是0,1,2,3...他们取这些值的概率为
由二项式定理可知,上述n+1个概率之和是1,这个概率分布称为二项分布,记为b(n,p),它被n(正整数)和p()确定。
- 数学期望:
-
图像:若p=0.5,有,意味着此种二项分布的概率直方图是对称的;当p<0.5时,称为正偏;当p>0.5时称为负偏。
- 计算困难问题:当n较大时,P(X<x)计算繁琐
2.4泊松分布
在二项分布b(n,p)中,当n很大,p很小的时候,计算复杂。
若相对的来说,n大,p小,而乘积n*p大小适中,二项公式有一个很好的近似公式,泊松定理。
-
泊松定理:在n重贝努力试验中,以Pn表示在一次试验中成功发生的概率。且随着n增大,Pn减小。若n趋于无穷时有,
,
此时
这个式子的使用条件要求n大,p小,np适中。
- 泊松分布:
p大于0,且和为1.,记为
- 根据泰勒展开式可得:
- 数学期望:数学期望就是泊松分布的参数
-
泊松分布的使用:
泊松分布是常用的离散随机变量之一,现实世界有许多随机变量可以直接使用泊松分布描述。例如一定时间内,电话总站接错电话的次数;一定时间内,超级商场排队等候付款的顾客人数;一定时间
内在车站等候公共汽车的人数;100页书上的的错别字字数。可以发现泊松分布与计数过程相关,并且在一定时间内、一定区域内、一定特定单位内的前提下进行的。
2.5超几何分布
对一个有限总体进行不放回抽样常会遇到超几何分布
-
超几何分布:
2.6负二项分布
2.7几何分布
- 几何分布定义:若X的概率分布满足,其中称X服从参数为p的几何分布,记为
- 几何分布的用途:在重复多次的贝努力试验中,试验进行到某种结果出现第一次为止,此时的试验次数服从几何分布。例如:射击,首次击中目标时射击的次数。
三.连续随机变量
3.1连续随机变量的概率密度函数
-
定义:设是定义在整个实数轴上的一个函数,假如它满足如下两个条件:
- (非负)
则称是概率密度函数,或密度函数,有时还简称密度
- 对于任意两个实数与,若,且可为,可为,X在区间上取值的概率为曲线在该区间上曲边梯形的面积,即。则称密度函数是随机变量的密度函数。
-
例子:
均匀分布:
指数分布:
3.2连续随机变量的分布函数
定义: 连续随机变量的分布函数可以用其密度函数表示出来,即对任意实数,
这些积分总是存在的,其中有些可以积出来,用初等函数表示出来,有些积不出来,只能用积分表示。-
性质:
- 连续随机变量的分布函数是直线上的连续函数
- 连续随机变量仅取一点的概率为零,。
- 在概率论中,概率为零的事件称为零概率事件,它与不可能事件有区别,不可能事件是零概率事件,零概率事件不是不可能事件。
- 对连续随机变量和任意实数与有
- 设和分别是连续随机变量的分布函数与密度函数,则在导数存在的点上有。
- 对于导数不存在的点可以是任意常数,因为有限个点改变密度函数值不会影响相应的分布函数。
3.3随机变量函数的分布
-
定理:设已知随机变量服从函数为和密度函数为,又设,其中函数是严格单调函数,且导数存在,则的密度函数为。
其中是的反函数,是其导数。
3.4连续随机变量的数学期望
- 设连续随机变量有密度函数,如果积分有限,则称为的数学期望,简称期望,期望值或均值。如果积分无限,那么的数学期望不存在。
- 例子:
- 均匀分布的数学期望:
- 指数分布的数学期望:
- 柯西分布的数学期望:密度函数,积分不存在所以数学期望不存在
3.5正态分布
-
定义:密度函数为的分布称为正态分布,其分布函数用如下积分表示,它含有两个参数和:,记为
- 正态分布曲线是一条钟形曲线:中间高、两边低、左右对称。
-
应用背景:
- 很多现象可以使用正态分布描述或近似
- 测量误差可以使用正态分布描述
- 同龄人的身高体重分别是正态分布变量
- 凡人的年输入可以近似正态分布描述
- 一个地区的年降雨量是正态分布
- 超级市场一周售出的鸡蛋重量是正态分布
- 许多分布可以用正态分布近似计算,中心极限定理表明,在一定条件下,很多随机变量的叠加都可以用正态分布近似
- 正态分布可以导出一些可用的分布,如统计中的三大分布:分布,分布,分布都是从正态分布导出的。
- 很多现象可以使用正态分布描述或近似
-
数学期望
- 设,则
证:在的积分表达式中作变换,可得
- 从这个证明中我们可以明确知道第一个参数的概率含义,他就是数学期望,第二个参数是标准差(证明在下面)。数学期望是分布的中心位置,是标准差,它表示正态分布在其期望值的集中和分散程度。愈小分布愈集中,正态曲线呈高而瘦;愈大,分布愈分散,正态曲线呈矮而胖。
-
标准正态分布
-
期望值为0标准差为1的正态分布称为标准正态分布,相应的随机变量叫做标准正态分布变量。其密度函数用表示。分布函数用表示,即
对于标准正态分布,对于任意实数,有。也可以从图像得出。
-
-
正态分布的线性变换
当时,的密度函数为
这表明,当时,是标准正态变量。上述计算结果表明,任一正态变量经过标准化之后都是标准正态变量。
-
正态分布的计算
-
设,则
证明:
=-
设,
可见正态分布的取值位于均值附近的密集程度可以用标准差为单位来度量
-
-
设,若知,可知
因为正态分布的分布函数是一个严格增函数,所以其反函数存在。
-
设,若知,求.
3.6伽玛分布
3.7贝塔分布
四.方差
4.1随机变量函数的数学期望
-
设随机变量及其函数的数学期望都存在,则有
证明过于繁琐,略
设为随机变量的函数,为常数,则
设和是随机变量X的两个函数,则
常数的数学期望等于,即
4.2方差
- 定义:设随机变量的存在,则称偏差平方的数学期望为随机变量的方差,记为,方差的正平方根称为随机变量的标准差,记为
- 下面以离散随机变量的方差为例来说明方差的统计意义,,如果要保持方差较小,则和式中每一个乘积项都要很小。这将导致以下情况
- 偏差小,那么相应概率可以大一点
- 偏差大,那么相应概率必定小。
- 方差的量纲是随机变量量纲的平方,而标准差的量纲与的量纲相同,从而与数学期望的量纲也相同,所以间的加减运算和比较大小就有实际意义了。如事件,表明随机变量落在区间内的概率。
4.3方差的性质
- c为常数,
-
- 二项分布的方差()
- 均匀分布的方差()
- 伽玛分布的方差()
4.4切比雪夫不等式
定理:对任意随机变量,若存在,则对任一正数 ,.对于连续变量或离散变量都成立。
-
证明:
当连续时
在此积分区域内,恒有,可以将上述积分放大
最后,再将上述右端积分限扩大到整个数轴上,则有
在切比雪夫不等式中方差是起决定作用的,若方差较大,分布就较为分散;若方差较小,分布就较为集中
若取为倍标准差,即,则切比雪夫不等式可以改写为一种常用形式,其对立事件的概率为。