- 频率和概率
研究某些事件在一次试验中发生的可能性究竟有多大。典型的日本建房子需要考虑地震的频率和特大地震的概率。事件频率描绘事件发生频繁程度,事件A发生次数即频数/试验次数n=频率fn(A)。概率描绘一次试验中事件发生可能性大小。直观来讲,仿佛频率越大,下一次试验发生此事件的可能性也就越大,所以原本就是用频率来表示事件发生的概率,知道遇到了抛硬币这件事,无论过去抛出正面的频率如何高,下一次试验抛出正面的概率依然是0.5一半的可能性。如果前面10次试验就抛出10次正面,频率值为1,就一定能得出下一次试验抛出正面的可能性是100%,当然不能,所以是否就不能用频率来表示下一下次事件发生的可能性呢,也不是不能,问题就出在计算频率的时候没有给出具体的实验次数n的值,如果n足够大统计出来的频率是接近概率的,那么问题来了,多大的试验次数n才算是足够大呢?一个标准,当频率值逐渐趋于稳定的时候,这个试验次数n就足够大了,得到的频率也就能够客观地表示下一次试验事件发生的概率了。这也说明,其实一次试验中事件发生的概率是可以用某一个确定的值表示出来的。而且几乎与频率稳定值相当。但是事实上,我们不可能为了计算下一次的事件发生的概率就做大量的计算来统计稳定性的频率呀,但是可以得到的其实是,每一次试验时事件发生的概率即可能性大小都是一个具体的值。问题的关键是在不做大量试验(试验次数n->∞)的前提下把这个可能性大小具体的概率值求出来。
- 基本概念
- 统计规律性:个体实验观察之前无法预知确切的结果,但是大家数据结果呈现规律性。
- 随机现象:个别呈现不确定性,大数据统计有规律的现象。随机,就是随便的意思,本质就是描述个体事件结果很随意不确定的意思。
- 概率论和数理统计:研究个体随机事件的大数据统计规律。
- 随机试验E共同特点:1、已知所有可能结果2、观察之前无法预知具体结果。3、每次试验的条件完全相同。
- 样本空间S:所有可能结果元素Sn的集合。
- 样本点Sn:集合中可能结果元素。
- 随机事件:观察随机试验结果,一个结果对应样本空间的一个样本点,对样本空间进一步分类,自然一类样本空间对应一类样本点。出现指定类样本点的实验结果就称之为随机事件。事件就是说发生了什么事情,随机事件就是说发生了实验结果刚好符合预期的事情。随机事件的本质是样本空间S的子集。一个我们期望的试验结果集合。
- 基本事件:只有一个样本点的集合,我们所期望的事情结果只有一个,绝不是一类。
- 必然事件:每次试验都必须要发生的事情。其实以后看到事件,直接就理解成样本点集合,绝对没错。必然事件就是赝本空间,随机事件就是我们所期望的样本点构成的集合,基本事件就是只有一个样本点的样本空间。
- 不可能事件:样本点一个也没有,就是说从古到今,这样的事情就从来没有发生过,五路能做多少次试验都不会发生,自然样本空间就是∅。
- 事件就是样本点集合,一个实验结果就是一个事件,如果要描述出现某一特征的实验结果,肯定首要任务是先把指定特征的试验结果样本点组成集合,然后出现的某一类结果总会属于一类事件,具体哪一类事件用事件分类来描述,随机事件,就是实验的结果特诊属于我们期望的样本空间类。必然事件,就是试验的结果总会是某一样本空间的样本点元素。
- 事件关系:本质集合关系。
- 事件A包含事件B:发生B事件必然发生A事件
- 事件A=事件B,AB事件一定是同时发生或同时不发生。
- 和事件:事件A+事件B,前提把A和B的并集看做一个整体和事件,A或B事件任意发生一个,和事件都会发生。
- 积事件:事件A和事件B的交集,即共有样本点,只有试验结果的样本点即是A事件元素又是B事件元素,换句话说,只有AB事件同时发生才能算积事件发生。而和事件只要AB两个事件中发生任意一个,都算和事件发生。
- 差事件:A-B,A发生B不发生。
- 互斥事件:A与B的交集为空集,事件互不相容。
- 对立事件:事件A和事件B没有交集,但是A和B中人和一个时间发生都作数。取A和B的并集。逆事件。
- 交换律:把样本空间想成一个盒子,然后一个事件就是一个装满跳棋的圆盘,并集取所有,交集去公共,交换律就是先网盒子里放A还是放B都无所谓。
- 结合律:针对三个圆盘以上的棋盘网盒子里放,如果求并集,完全可以先把两个时间放成一个小盒子,然后把小盒子和另一个棋盘放进去。求交集一眼道理。
- 分配律:1、先求两个事件交集,再求与第三个事件的并集;2、先求两个事件的并集然后再求打三个事件的交集。总之就是把一个括号变成了两个括号。改变先后顺序,本来是先算交集的变成了最后算交集,本来是先算并集的变成了最后算并集。改变括号本质改变计算顺序。
- 德摩根律:并集或,交集且,非(A或B)=非A且非B,非(A且B)=非A或非B
- 概率P(A):表示事件A发生的概率,S样本空间包含所有样本点。现在把事件A看做自变量,下一次试验这个事件发生的可能性大小值看做因变量,则构成一个概率函数P(A)。首先研究概率函数P(A)的值域自然【0,1】。
- 如果多个事件互不相容,自然个事件并集构成一个新的事件,这个新事件的概率也是原来许多小事件的概率的和。很好解释,毕竟样本空间总量是一定的。这也就是事件的样本可加性,把原本的样本空间结构打乱,所有的样本点装到一个新的样本空间里面去。
- 差事件概率:P(B-A)=P(B)-P(A),概率函数的很多加减公式都可以从样本可见性得到证明。P(B)=P[AU(B-A)]=P(A)+P(B-A).
- 逆(对立)事件概率:P(S-A)=P(S)-P(A)=1-P(A)
- 古典型概率:又称等可能概率,顾名思义,就是基本事件(样本点只有一个)发生的可能性都相同,而且样本空间的样本点是有限的。同时这是一开始主要研究概率的对象,所以称为古典概率嘛!基本事件最大的特点是互不相容,自然所有基本事件概率P(e)之和=P(S)=1。
- 放回抽样Vs不放回抽样:口袋取球,前者放回去,后者不放回。
- 放球模型:n个球放到N(N≥n)个盒子中,每个盒子至多有一个球的概率?样本空间:N!/(N-n)!*N^n。生日模型:一旦班上人数超过50人,至少有两个人生日相同的概率居然超过了97%的概率,是不是感觉数学特别令人难以置信。
- 整除:是除数的倍数,有多少倍就有多少个
- 同时整除:是多个除数的最小公倍数的倍数,有多少倍,就有多少个同时整除除数的数值
- 贝叶斯公式:已知特殊事件概率,求此时基本事件的条件概率。基本事件在特殊事件下的条件概率=(特殊事件在基本事件下的条件概率基本事件的概率)/所有特殊事件在基本事件下的条件概率基本事件的概率的和。
- P(Bi|A) = P(A|Bi)P(Bi)/P(A|Bi)P(Bi)
- 基本事件条件概率=基本事件特殊事件同时发生古典概率/特殊事件古典概率=(特殊事件条件概率*基本事件古典概率)/特殊事件在必然事件下的条件概率(全概率公式)
- 事件独立:前一个事件概率不会影响到下一个事件概率。如果用韦恩图表示,相交和相交都会相互影响,重点分析相交,两个事件相交,是否就一定会影响下一个事件的发生概率呢,例如发生了A事件,然后求B事件的条件概率,有一种情况,如果A事件是一个必然事件,那么B事件条件概率就是古典概率。B事件的古典概率根本不受A事件影响。所以就把两个事件看成是两个韦恩图最省劲。一个事件背后就站着一个韦恩图,事件的概率相乘就是最终的概率。
- 相互独立:积事件概率=各事件概率之积。
- 和事件:和事件从韦恩图来看,分两种情况,一种是原本互斥,一种是原本相交,但是很容易大脑就默认是原本互斥,直接相加,要知道,如果和事件的两个子事件是相交即可以同时发生的时候,直接相加会造成重复计算交集的问题。
- 条件概率
P(B|A)=P(AB)/P(B)。前面的事情已经真实发生,这已经作为一个条件,问这一件事情发生的概率,求已知条件明确的事件发生概率。r红t白,放a只,一二红三四白的概率。样本空间总样本点:(r+t)(r+t+a)(r+t+2a)(r+t+3a)。基本事件样本点:r(r+a)t*(t+a)。条件概率居然和古典概率的关系就是思考角度不一样,但是最后的结果都是一样的,这就是数学的魅力,不一样的思考角度竟然得到相同的结果,还有比这更有意思的么?P(D|ABC)=(t+a)/(r+t+3a);P(C|AB)=t/(r+t+2a);P(B|A)=(r+a)/(r+t+a);P(A)=r/(r+t);算条件概率,我一直有个疑问,前面的条件会影响后面的事件的概率,到底是影响后面概率的什么?是样本空间总量,还是基本事件样本量。都会影响。诶,有点意思,条件概率简直太简答了,反正就是做一次试验,试验的结果取决于条件对于样本空间和基本事件样本点的改变。特殊事件在必然事件S下的条件概率就是特殊事件的古典概率。条件概率累加P(A)=P(A|B1)P(B1)+P(A|B2)P(B2)+······+P(A|Bn)P(Bn),直到加成了一个古典概率。
- 和事件概率
P(A+B)=P(A)+P(B)-P(AB),P(AB)表示积事件的概率,既发生A又发生B事件的概率=P(A)*P(B)。AUB=AU(B-AB)。我靠,我竟然发现一个惊天大秘密,同样一个公式AU(B-A),在A是B的子集时表示B;在A非B的子集时表示B-AB。AUB=AU(B-A)=AU(B-AB)没毛病呀,我明白一天大的陷阱,集合交集并集与集合加减乘除不要乱拆括号,绝对不要。你要知道,这是集合交集并集的关系,括号里面是一系列的样本点集合,集和的U相当于+,怎么老想成是乘呢,脑子有毛病把!
- 积事件概率乘法
P(AB)=P(A)*P(B|A),P(ABC)=P(C|AB)P(B|A)P(A)。P(A1A2A3····An)=P(An|A1A2A3····An-1)P(An-1|A1A2A3····An-2)······P(A2|A1)P(A1)积事件是问同时发生多件事情的概率,同时发生多件事情,肯定首先想到就是概率相乘,没有毛病,但是事件的概率会相互影响,前一件事情的概率直接影响到下一条事件的概率,概率相乘是肯定的,但是后面事件的概率一定时在前面的事情都已经发生后的条件概率。
- 全概率公式
有限个事件把样本空间给划分了!事件相互之间毫无交集。每次试验,必有一个事件发生。意义在于P(A)不易直接求,但是一般知道在某种条件下发生P(A)的概率,一个条件就是一个事件,如果这些事件刚好把样本空间划分了。已知前提条件事件的概率和待求特殊事件的条件概率以及所有的前提事件的概率和为1,于是特殊事件的概率就出来了。
- 全概率公式和贝叶斯公式对比
用途:全概率研究特殊事件条件概率与基本事件古典概率,求特殊事件古典概率;贝叶斯研究特殊事件条件概率与基本事件古典概率,求基本事件的条件概率。
联系:都是研究特殊事件古典概率、基本事件古典概率、基本事件条件概率、特殊事件古典概率。
举例:1、总共100个产品,来自三家,每家数量不一样,次品率也不一样,求抽到次品的几率!以及抽到谁家的几率最大?
- 基本事件就B和非B的公式引申
1、P(A)=P(A|B)P(B)+P(A|非B)P(非B)
2、P(B|A)=P(A|B)P(B)/P(A|B)P(B)+P(A|非B)P(非B)
- 样本空间划分来理解概率的运算
1、空间求并集,概率相加
2、空间求交集,概率相乘
3、非空间逆运算,概率相减
- 古典概率和条件概率的关系
对于古典概率,只要任何可能的条件一发生改变,马上这个古典概率就变成了条件概率。条件概率=新样本点新样本空间的古典概率。基本事件条件概率=(基本事件古典概率*特殊事件条件概率)÷特殊事件的古典概率。特殊事件条件概率又等于什么呢?
- 事件独立举例
- 不放回抽奖举例,每一次都是独立事件,不会影响中奖事件的古典概率。从全概率公式来考虑,中奖事件已经由古典概率转变成了条件概率。前面是否中奖确实已经影响到了后面的人中奖概率呀。
- 从几何概率来讲,确实不放回和放回抽到白球的概率是一样的,那是根据排列组合算的a/(a+b)
- 事件独立和条件概率感觉矛盾,条件概率是前面发生的事情会影响后面的事情,可是前面发生的事情具体是什么是个未知数呢,这样就相当于是求几何概率,无论第几次试验,结果都是一样的,反正前面到底发生了什么事情也不知道,这不是独立事件是什么。
- 如果用知道几何概率就当成独立事件来求独立事件的概率岂不是太简单了。哈哈
- 积事件Vs和事件关系
- 几个小独立事件的积事件构成一个基本事件,几个基本事件的和构成更大的基本事件
- 最重要的就是分析什么是基本事件,什么是特殊事件。求特殊事件古典概率,第一步找出所有满足条件的基本事件,第二步求出每一个基本事件的古典概率,第三步找出每一个基本事件下特殊事件的条件概率、全概率公式
- 习题总结
- 概率和事件的区分?概率是概率,是事件的样本量与事件空间样本量的比值。事件是集合,是一系列样本点的集合。
- 对立事件与差事件的理解?两事件的差=减数的对立事件与被减事件的交集。维韦恩图很好理解,问题关键如何表示被减去的事件,干脆用原来的被减事件和减事件的对立事件来表示。最后结果不刚好等于交集么?
- 先交集后对立事件Vs先对立后交集事件,先交集后对立=对立事件的并集,一切只为排除原本事件的交集;先对立后交集=并集的对立事件,一切只为排除原本事件的并集;
- 超过三个以上的事件的并集易错点?三个事件并集,二维并集算了两次减去一次没毛病,可是三维并集算了三次也减了三次,最后必须加上事件的三维交集。
- 两个对立事件和一个原事件的积事件?易错1:不区分独立还是非独立。易错二:只有在独立事件这个大前提下才可以使用乘法来计算积事件。易错三:如果不是独立事件然后求积事件只能转变成对立事件的和事件来计算。
随机变量及其分布
随机变量:样本空间的每个样本点元素都用实数来代替,统一变成一个实数构成的集合。一个样本点e就是一组自变量,一组自变量就对应一个随机变量X(e)。如果样本点本身就是一个自然数,直接就用e来表示随机变量。随机变量本质就是一个实数集合,其实变量本质上就是一个实数集合。原始原本是用字母来描述事件,现在改用随机变量来描述。现在就是把样本点对应的随机变量看成是因变量,把发生的基本事件看成自变量,函数就出来了。于是就能用数学分析方法对随机试验结果更加深入广泛的研究和讨论。随机变量的实数集用L表示,实数集L中的任意一个具体实数用X来表示。
描述事件:样本空间S中满足样本点对应随机变量属于L实数集的所有样本点集合。一个事件既可以用随机变量实数集表示,又可以用样本点集合来表示。
离散型随机变量:随机变量可能取到的值是全部可以列出来的。类似于函数中的非连续且有界。有限个就是随机变量的取值一定是有限的,如果随机变量可以取到无限个但是可以列出来的也算是离散型随机变量。问题的关键,怎么区分无限个随机变量是否可以列出来呀?无限多个随机变量还能列出来,那么这个随机变量虽然数量不定,但是满足一定的排列规律。
- 0-1分布
- 试验结果非此即彼,用随机变量表示就是(0或1)
- X=0和X=1的概率分布就是典型的0-1分布
- 二项分布
- n次试验发生A事件k次的概率刚好是(p+q)^n的二项式展开第k项
- 如果n=1只做一次试验,刚好0-1概率分布
- 随机变量的取值即k∈0~n,每一个随机变量k都对应一个概率,用二项分布计算
- 二项分布计算概率最重要的是发生k次A事件,但是不清楚具体是第几次第几次第几次,所以必须组合相乘
- 实际意义在于更直观发现所欲随机变量的概率分布,方便找出最大和最小
- 特点:二项分布求出的概率分布通常都呈现出一种两边单调中间有最值的性质
- 二项分布应用场景
- 不能完成检修的概率=坏的机器大于1台的概率=1-P(X=0)-P(X=1)=0.0169
- 4组4人难以修复及时概率=每个人难以及时修复概率的并集≥单个人难以及时修复的概率,韦恩图一目了然
- 1组3人=故障设备大于3个时的概率
- 问题关键:20台机器坏1台以上概率(0.0169) Vs 80台机器坏3台以上概率大(0.0123);得出结论一个人管20台机器比3个人管80台机器难以修复故障的概率更大
- n重伯努利试验
- 重复(每次概率都一样)独立(每次试验结果互不影响)
- A发生k次概率
- 放回抽样和不放回抽样区别?
- 第i次中奖的几率都一样
- 放回抽样每次试验是独立的;不放回是非独立的,本质是求特殊事件古典概率,前面的每一个试验都是特殊事件的附加条件
- 泊松分布
- P(X=k) 随机变量取k时对应的概率 = (λ^k)*e^(-λ)/k!
- 随机变量X的概率分布规律满足参数为常数λ的泊松分布概率表达式
- 泊松分布表达式(λ^k)*e^(-λ)/k!的0~n求和为1,即(λ^k)/k!的0~n累加求和一定为e^λ
- 现实举例:P(X=书的错误数);P(X=一天快递遗失个数);P(医院一天的急诊病人数)
- 泊松分布近似表示二项分布
- 重复独立n->+∞次伯努利试验,二项概率分布 = 泊松分布
- 泊松分布常参数λ = nP(事件发生),也相当于一个趋于∞的常数,毕竟P(事件发生)是一个固定常数
- 将P(事件发生)用λ和n表示成λ/n,现在的二项分布就相当于变量替换,把P(事件发生)换成了λ,在泊松分布中,就不存在事件发生的概率,只有一个λ,以后看到λ就条件发射似的想象成nP(事件发生)就行了。
- 泊松分布,是二项分布的一种极限逼近,二项分布和泊松分布都是研究随机变量的概率分布,那么应该是同一个分布规律才对,类似无穷级数的n趋于无穷大毕竟原函数,这就是两种不同的形式,随着n越大,二项分布就越逼近泊松分布
- (1-λ/n)^n当n->∞的极限,努力构造(1+1/n)^n=e,问题关键把-λ/n看成一个整体当成是1/n则外面需要n/-λ,为了保持指数不变,自然需要在外面乘以一个(-λ)。这不仅是泊松分布和二项分布的关键,更是求极限的启示呀!反正一句话,把-λ/n当成1/n来对待。
- 二项分布与泊松分布相似的关键在于n->∞,因为λ是一个固定常数,这直接意味着P(事件概率)太小了,几乎就不会发生了,好吧!
- 泊松分布Vs二项分布应用场景对比
- 二项式分布的P非常小,而n又很大,然后P^n打死也算不出
- 先算出np然后泊松求出近似二项式分布,牛逼到爆,顿时觉得数学家真的好厉害呀,发明这么多牛逼公式,看起来麻烦,竟然是这么好用
- 分布函数
- 对于非离散型的随机变量,不能一一把随机变量列出来,自然无法用分布律表示每一个随机变量的概率
- 不能列出来的随机变量,例如误差ε、寿命T,研究某个误差值或某个寿命值的概率并无价值,研究误差区间或寿命区间的概率才是追求,只需要知道区间端点值的概率,然后相减就可以了
- P(X≤x)表示随机变量处于某一区间的概率,x作为自变量,x确定了随机变量的区间,最后得到的随机变量概率就是因变量y。如此构成映射关系就是随机变量的分布函数。简单一句话,x区间的y概率。
- 分布模型描述的是离散随机变量的概率,分布函数描述变量区间概率,直接反映了随机变量的统计规律
- 随机变量的集合通通表示到数轴上,分布函数的自变量x就表示(-∞,x]这个随机变量区间
- 分布函数肯定是单调递增的,x越大,随机变量区间越大,样本点越大,概率就越大
- x取值正负无穷大,x->-∞时y->0;x->+∞时y->1;
- 分布函数是一个右连续函数,F(x+0)=F(x)
- 离散型随机变量的分布函数就是一个分段函数,采用累加形式来求随机变量区间概率。分段函数的自变量是一个左闭右开的定义区间,因变量是一个随机变量概率累加。
- 分布函数的跳跃性。X随机变量表示目标点和圆心的距离。
- 分布函数的讨论区间一定是整个数轴
- 随机变量的概率累加一旦变成了1,后面再累加就都是1不会再变
- 连续型随机变量
- 分布函数F(x)是一个自变量在(-∞,x】区间上的函数f(t)的积分
- F(x)本身是一个分段函数,然后求导,(-∞,0]和【2,+∞)两个区间的导数都为0。于是直接求(0,x)的定积分=求(-∞,x)的定积分,反正f(0)=f(-∞)= 0
- 定义:凡是分布函数F(x)求导后的f(t)满足两个条件,1可积分2所有的函数值都非负数,要么0要么正数
- 连续型随机变量的分布函数求导得到的新函数f(t)称为连续型随机变量的概率密度函数
- 连续型分布函数中对于具体实数值的概率P(X=具体实数)=0
- 计算连续型随机变量区间概率是不必考虑区间开闭对结果的影响,反正最后端点出的概率为0.值得注意的是,概率为0可并不是说这一点对应的随机变量的事件是不可能发生事件
- 概率分布Vs概率密度
- 离散型分布函数描述每一个随机变量的概率,连续型分布函数描述随机变量区间的概率
- 概率密度只描述随机变量区间的概率变化的快慢,几何意义就随随机变量的这一段区间的与下一段区间的概率变化快慢,密度越大,就区间概率变化越快,反之亦然
- 概率密度
- 概率密度大于0,几何来看,概率密度曲线与X轴构成区域的面积就是分布函数的在这个积分区间的概率,随着积分区间增大,概率肯定是增大的,至于增大的快慢,自然就是由概率密度函数曲线来控制。增加相同大小的变量区间,概率密度越大,增长面积就越快,自然所得到的概率就越大。无偶一概率密度函数的曲线必然是在X轴的上方,反之就面积相减,哪有区间增大,概率减小的道理呢!
- 概率密度函数曲线与X轴构成的区域的面积是连续型随机变量的概率,区间积分面积对应变量区间概率,而且曲线总是在X轴上方,自然就是所有的积分面积就是整个变量的概率,自然就是1
- 分布函数在x点连续,则分布函数在x点的导数就是概率密度函数在x点的函数值,这从几何上看理所当然,如果从导数定义来看,就是F(x+Δx)-F(x)/Δx=P(x+Δx)-P(x)/Δx = f(x),于是得出了关键的结论,如果Δx足够小,完全可以用f(x)Δx来表示连续型随机变量的区间概率
- 概率密度越大,表示同样长度区间,区间概率越大,反之亦然
- 应用场景
- 已知概率密度求分布函数,概率密度函数连续性求参数,不定积分求原函数,分布函数连续性求不定积分常数
- 在确定分布函数这个分类函数之后求确定变量区间的区间概率
- 随机变量X的概率分布
- 离散型随机变量中是指随机变量的概率分布律
- 连续型随机变量中是指随机变量的概率密度
- 均匀分布
- 概率密度分类函数共分两个区间,一个是(a,b)区间,另一个就是初次之外的其它区间,概率密度为0
- 在(a,b)区间概率密度函数1/(b-a),意味着函数图像是条X轴平行线,定积分面积即区间概率是均匀增大
- 1/(b-a)不定积分x/(b-a)最终只会与区间长度有关,只要区间长度相同,区间概率就肯定相等
- 均匀分布的概率密度函数的不定积分的常数是怎么确定的呢?
- 连续型分布函数的确定实数值区间概率为0
- 首先前面说过,连续型随机变量是无法把变量一一列出来的,求具体某一个变量的概率更是没有什么意义,所以都是研究连续型随机变量的区间概率
- 所以从连续型随机变量分布函数的定义就可以看出,不是具体随机变量和变量概率的映射,而是(-∞,x)这个区间与区间概率的映射,所以虽然与离散型随机变量都叫分布函数,可是真正的映射关系式完全不一样的,事实上,如果是离散型随机变量,我们也根本无法求出具体某一个随机连续变量的概率。所以必须清楚这个分布函数的内核其实是区间映射区间概率。
- 自然从区间概率来讲,具体一个确定的数值在区间的定义域里就相当于微分区间。即F(a)=F(a+Δx),当Δx趋于0即变量区间足够小时,自然区间对应的区间概率为0,很好理解嘛,区间几乎都不存在了,怎么会有区间概率呢!
- 既然具体实数值的概率为0,自然计算区间概率,不必考虑开闭区间的影响,求小区间的概率本质是求两个大区间概率的差值
- 就是因为连续型分布函数的特殊定义,在分布函数中具体变量事件概率为0并不意味着这个事件不可能发生,只是说这个实数值无法再分布函数中构成区间,进而无法求出区间概率罢了,但是实际发生的概率还是存在的,只是求出来没有什么意义罢了
- 均匀分布应用场景
- 已知随机变量区间,且均匀分布,求概率密度,求确定区间长度的概率,本质问你概率密度公式1/(b-a)的特点,一条直线,只存在(a,b)区间上空
- 指数分布
- 概率密度公式同样是分段函数,区间与均匀分布不同的是分为(0,﹢∞)正数区间和其它区间
- 只要连续型随机变量∈正数区间,P(X<x)的区间概率=(1/θ)e^(-x/θ),然后要求区间概率必须先要知道θ这个大于0的常数
- θ取不同的值(1/3,1,2),概率密度函数在坐标系的图像就不一样,但是相同的是,都是与第一象限构成封闭三角形区域,然后面积都为1
- 指数函数的概率密度函数求不定积分就得到连续性随机变量分布函数-e^(-x/θ),不定积分的常数为1,因为x=0时区间概率为0
- 无记忆性理论:求原件的寿命区间概率,已知已经使用s小时,在这个条件下求(s+t,+∞)的区间概率;另一种是直接未使用,求(t,+∞)区间的概率;最后这两种算出的结果相等,这就是指数分布计算区间概率的神奇理论
- 无记忆性理论用数学表达式表示就是P{X>s+t | X>s}=P{X>t},事实上P{X>s+t | X>s} = P{X>s+t } ∩ P{X>s}/P{X>s} = P{X>s+t}/P{X>s} = [1-F(s+t)]/1-F(s) = e^-(s+t)/θ / e^(-x/θ) = e^(-t/θ) = P{X>t}
- 正态分布
- 高斯分布或是正态分布计算概率密度的公式直接计算±∞的区间概率,不知道概率密度函数的几何曲线是怎样,但是表达式居然有两个不定常数,看起来很复杂呀,真不知道高斯这个数学家是怎么想出来的,太厉害了。
- f(x)=【1/(2π)^(1/2)σ】e^【-(x-u)^2 / 2σ^2】
- 通过(x-u)/ σ = t换元验证概率密度函数的上下无穷定积分为1;已知定积分平方后被积分函数变成了e^(t^2+u^2)/2平方和的形式,自然考虑极坐标累次积分求解
- 正态分布的概率密度函数的几何图形特性:1、关于x=u对称,这意味着对称轴两边只要区间长度相同,区间概率就相等。P(u-h<X≤u) = P(u<X≤u+h);2、概率密度函数在x=u时取得最大值f(u) = 1/(2π)^(1/2) * σ
- u和σ两个参数共同决定了正态分布的曲线形状,u就是曲线的对称轴决定了图像在x轴上方的位置,σ就是图像的胖瘦(当然体积一定的都是1),决定了长度相同变量区间的区间概率变化
- 已知σ=1,u=0,1/(2π)^(1/2) * e^[-x^2/2]这个概率密度函数的几何图像就是标准的正态分布图像。标准的正态分布的概率密度ψ(x) = 1/(2π)^(1/2) * e^[-x^2/2]; 分布函数Φ(x ) = ψ(x)的定积分。
- 正态分布求区间概率满足一个特性,x和-x分别处于正态分布概率密度曲线两边,且对称,两个互为相反数的区间概率相加必然为1。Φ(x) + Φ(-x) = 1。注意Φ(x)仅表示概率密度函数为标准正态分布的区间概率,一般的标准的正态分布的区间概率依然还是用F(x)来表示
- 哈哈,前面说过,虽然每一个正态分布的位置不一样,不一定天生就是标准的正态分布,但是可以平移呀,长的不好就整容嘛!通过变量替换u换成标准正态分布来处理不就行了
- 标准正态分布的上α分位点:已知随机变量Zα,P(X>Zα)= α;描述大于随机变量x的区间概率,自然α∈(0,1)。当Zα=0时,α = 0.5;当Zα=3时,α = 0.001。标准正态分布中,几乎超过3时,区间概率就几乎不会再发生变化了,变化范围只有0.001这么小。Z(1-α) = -Zα。
- 正态分布应用场景
- 普通正态分布X~N(u,σ^2)转变成正态分布Z=(X-u)/σ ~ N(0,1)。很神奇吧,打麻将一样,摸到牌后就一个目标,穷尽一切办法把牌往确定模式上套,这里就算天生是正态分布,u=0,σ=1,也依然适用(X-u)/σ = X这个公式呀,简直无往不利!
- 把随机变量Z用X、u、σ来表示,然后自然得到X的关于u、σ、x的不等式。于是乎本来是求原本普通正态分布(-∞,x)区间概率,现在变成了求标准正态分布的(-∞,u+σx)区间概率
- 已知普通正太分布区间X,就等价告知标准正太分布区间[(X-u)/σ],求正太分布的区间概率F(x) = Φ[(x-u)/σ]。
- 已知正太分布的随加变量区间,就可以查表获得区间概率
- 已知u和σ,求x;
- 已知x和σ,求u; 1-Φ【(80-d)/0.5】 = Φ【(d-80)/0.5】
- 生活实例:男性身高
- 随机变量的函数的概率分布
- 对随机变量的变量概率或区间概率不感兴趣,而对随机变量构成的函数更感兴趣,对随机变量直径d不感兴趣,对d的函数随机变量面积A感兴趣
- 已知随机变量d的概率分布,求随机变量A的概率分布;前一个随机变量d作为后一个随机变量A的自变量,两个随机变量用连续函数建立联系
- 已知X概率密度fx(x)和Y=X^2,结论Y概率密度[1/2y^(1/2)]*【fx(y^(1/2)+fx(-y^(1/2))】 y>0
- 随机变量的函数的分布应用场景
- 已知离散型x随机变量概率分布,求函数g(x)随机变量y的概率分布;关键考察多个随机变量x对应一个函数g(x)随机变量y的概率累加
- 已知连续型随机变量x的概率密度,求函数g(x)随机变量y的概率密度;易错点:直接把概率密度函数中的x换成y构成的反函数。极易忽略换元法积分求导的影响。现在知道x的反函数,然后用这个反函数来代替x,除了被积分函数中的x需要替代成x的反函数,微分dx也是需要变成x的反函数呀。确实,直接从概率密度函数来看,没有这个dx,但是我们知道概率密度函数本质上是x随机变量分布函数的求导,如果只是改变被积函数中的x,积分回去的原函数还是相当于在积分x,y反而成为了常数。所以必须把dx中的x也变换成用y表示的反函数。总结:将x变成y表达式组成的反函数,是哪个地方,第一被积函数中的x;第二dx中的x;第三区间中的x。
- 已知y=x^2和x的概率密度函数,求y的概率密度。问题关键:x的反函数为±y^(1/2);上面总结的三个变量替换居然用不上。从原理出发,连续型一个x对应一个y,一个y对一个概率密度值。
- Fx(x)表示X的分布函数、Fy(y)表示Y的分布函数;Fy(y) = P{Y≤y} = P{2x+8≤y} = P{X≤(y-8)/2} = Fx[(y-8)/2]
- Fy(y)求导 = Fx[(y-8)/2]求导 = fx[(y-8)/2](1/2),问题关键把x换成了y的表达式,本来是求Y分布函数的导数,变成了X分布函数x=y表达式的导数。
- P{X^2≤y} = P{-y^(1/2)≤X≤y^(1/2)} = P(x=y^(1/2)} - P[x=-y^(1/2)]
- 总结:1、把Y的分布函数变成X的分布函数 2、建立Y分布函数和X分布函数的等价关系 3、Y分布函数求导得到Y的概率密度函数 4、通过g(x)函数关系确定随机变量y的分段区间两个随机变量的函数g(x)
- 处处可求导,说明一定连续
- 导数要么恒>0递增,要么恒<0递减,只有单调性严格一致才可以通过不等式变换求解
- fy(y) = fx[h(y) |h'(y)|,如果h'(y)>0则x随y增大而增大,自然正数的绝对值是正数;如果h'(y)<0则x随y增大而减小自然负数的绝对值就是前面加一个负号,毕竟概率密度的值一定是正数。
- 应用场景
- 已知随机变量正态分布参数,求解变量函数的分布函数。第一步:列出随机变量密度函数。第二步用变量函数替换变量,严重注意此处要求导数。第三步列出变量函数的密度函数
- 已知随机变量U(a,b)、变量函数的分布函数。1、判断变量函数的导数恒大于0单调性一致(这里如果是变量就默认加绝对值,毕竟最后求的变量的函数构成的新变量的密度函数一定是大于0的);2、求解反函数和反函数的导数 ;3、列出随机变量均匀分布概率密度1/(b-a);4、反函数替换原始随机变量并乘以反函数导数。5、列出随机变量的函数的分段密度函数。注意:如果判断变量的函数的导数并非恒大于0,就要区别对待了,负的和正的需要分开来算。
多维随机变量及其分布
- 二维随机变量(X,Y),(X=身高、Y=体重)(Xx坐标,Y=y坐标)
- 二维随机变量分布函数定义:1、F(x,y) = P{X≤x}∩{Y≤y} = P{X≤x,Y≤y} 2、同时联合X和Y两个随机变量的分布函数
- 把二维随机变量(X,Y)看成是坐标点,则二维区间概率随机点(x,y)为顶点的左下方无穷矩形面积。
- 已知顶点1,又知顶点2,便知矩形差,二维概率矩形差
- 概率具有非负性的性质
- 离散型的随机变量 = 随机变量个数有限 Or 随机变量个数无限大师可以按照规律列出来
- 离散型二维随机变量概率:P(X=xi,Y=yi) = p(ij)
- 联合X和Y随机变量的分布函数F(X,Y) = P(X≤x)*P{Y≤y}
- 二维随机变量分布函数研究的是区间概率,不是变量概率
- 分布律是每一个随机变量的概率,对于二维随机变量的分布函数竟然是研究区间概率,而且不区分连续型还是离散型
- 二维随机变量概率密度函数
- 连续型:非负的概率密度函数f(x,y)的双重积分为概率分布函数F(X,Y),自然分布函数的两次非重复求导为概率密度函数,前提函数连续
- 离散型随机变量(无论几维)只有概率分布律;只有连续性随机变量才有概率分布函数和概率密度函数
- 二维随机变量区间既可以用{X ≤ x,Y ≤ y}来表示,又可以用区域G来表示
- 概率密度函数值相减 = 区域公式推导 = F(x2,y2)-F(x2,y1)-F(x1,y2) + F(x1,y1)
- 已知分布函数的随机变量区域/△x△y = f(x,y)。那么落在区域的概率为f(x,y)*△x△y
- 二维随机变量概率密度函数是一个曲面,自然就与xOy平面构成体积区域,这个体积就是二维随机变量的区域概率,总体积坑定为1
- 应用场景
- 已知区域概率密度,可得区域概率分布函数。本质二重积分求体积
- 已知区域内随机变量的关系,求符合该关系的区域概率,本质二重积分求体积局部底面积
- 边缘分布
- 边缘分布函数:分布函数是用直角坐标系来划分区域;边缘分布函数是用坐标轴来划分区域
- 联合概率密度是一个体积为1的立柱;X边缘概率密度就是一个Y轴截面;Y边缘概率密度就是一个X轴截面
- 重点:二维正态分布
- 边缘分布律:联合分布概律的加法构成了边缘分布律,X边缘分布Pi·; Y边缘分布P·j ; 表格横排竖排累加
- 边缘分布概率 = 固定随机变量方的古典概率 * 1 (条件概率1 + 条件概率2 + 条件概率3 +····+ 条件概率n)
- 本质:已知发生了A,累加另一随机变量发生每种结果的联合概率写到边缘
- 边缘分布概率就相当于是固定事件的古典概率
- 应用场景
- 求边缘分布律。X和Y只确定一个随机变量的值,条件离散点(X,Y)/所有离散点(X,Y)的比值即是边缘分布律!
- 已知联合分布律,求解边缘分布律
- 已知联合概率密度,求解边缘概率密度
- 已知二维正态分布的联合概率密度,求解边缘概率密度
- 条件分布
- 条件概率:事件B在事件A已经发生的情况下的概率;条件分布:条件固定其中一个随机变量可能值,研究另一个随机变量的概率分布
- 条件分布一起构成了联合分布
- 条件分布律:已知P*j和Pij,于是求得P{X=xi | Y = yj}这个固定j的条件概率。条件概率累加 = 1。本质:已知A事件,列出现在B发生每种结果的可概率
- 条件分布函数:已知概率密度和边缘概率密度,求得区域并发概率和区域古典概率,求区域条件概率。Just 相除!
- 区域条件概率 = 区域并发概率/区域古典概率 = 概率密度积分/边缘概率密度积分
- 假如区域古典概率区间特别小,求边缘概率密度积分的时候,本质是求Y轴截面的区间面积。高为边缘密度函数值fy(y),宽为(y+△y)-y = △y,那么这个区间面积就近似为△yfy(y)。于是边缘概率密度积分 = 区域并发概率 = 轴截面的区间面积 ≈ △yfy(y)。前提,△y足够小,使得fy(y)高度变化不明显。
- 同样道理,概率密度积分 = 区域古典概率 = 立柱体积(平行X轴面积 * y区间差值) = 概率密度函数x的积分再y的积分 = △x乘以密度函数的x积分。前提,△y足够小,密度函数的x积分即平行于X轴面积近似看做恒定。
- 结论:在Y=y条件下X的区域条件分布函数P{X≤x | Y = y} =( △y×密度函数的x积分)/(△y×边缘密度函数)= ∫密度函数dx/边缘密度函数 = Fx|y(x | y)
- 条件概率密度 = 区域条件概率函数的dx求导 = 密度函数/边缘密度函数
- 应用场景
- 已知联合分布和边缘分布,求解条件分布。本质知道并发概率和古典概率,求解条件概率
- 难点试题见截图
- 条件概率应用场景
- 已知概率密度,求解在Y=y条件下X的条件概率。先求Y边缘概率密度,本质求解x积分平行于X轴的面积
- 分布函数是密度函数的二重积分,分布函数的区域与密度函数区域关系。非此区域的坐标点的区间概率都是0
- 已知区域分布,A边缘密度和B条件密度。求解B边缘密度。难点:已知区域求解边缘密度函数
- 条件密度函数和边缘密度函数的区别?条件密度函数是求立柱竖界面面积;边缘密度函数是其中一个变量的积分。
- 从几何理解:X边缘密度就是分布函数dx求导 = 密度函数的y积分
- 从分布律来看,X确定,分布列出Y每种结果的联合概率,于是乎肯定概率密度是1
- 边缘Vs条件
- 边缘分布律Vs条件分布律
- 边缘密度Vs条件密度
- 对比理解边缘分布和边缘密度函数值,效果极好
- 边缘分布函数就是一个特殊的联合分布函数
- 边缘分布律上的值 = 变量的古典概率(所有边缘分布律相加肯定为1) = 密度函数中表示就是横截面面积
- 相互独立随机变量
- 两个随机变量相互独立
- 联合分布函数 = A边缘分布函数 * B边缘分布函数。对比如果不独立时, 联合分布函数 = A边缘分布函数 * B的条件分布函数,怎么来的呀?
- 联合概率密度 = A边缘概率密度 * B边缘概率密度
- 发明概率密度函数就是因为比概率分布函数使用起来更加简单
- 应用场景
- 已知A边缘密度、B边缘密度;乘积计算联合密度累加为1
- 已知联合分布律,求解边缘分布律。然后直接两个边缘分布律相乘就是联合分布律,于是得出随机变量相互独立的结论
- 考察二维正态随机变量的概率密度函数的参数。两个边缘密度函数的乘积,然后分析参数?分析参数如何影响两个随机变量之间的独立关系?
- 已知均匀分布求得两个边缘密度,进而求得联合密度,关键获取符合条件的区域。|X-Y|=1/12,于是得到两条线,前期知道联合分布区域,取交集,于是得出面积,自然一积分就是体积,就是符合条件的概率。
- 总结:已知均匀分布、便知边缘密度常数相等,任意等长划分随机变量假设边缘密度函数,得到联合密度函数,确定符合条件的联合分布区域,求双重积分于是得解。问题思考?为什么可以随意假设边缘密度函数?
- n维独立随机变量
- X1、X2、X3·····Xn和Y1、Y2、Y3····Yn相互独立,不会因为X发生了
- n维分布函数:F(x1、x2、x3·····xn) = P{X≤x1,X≤x2,X≤x3·····X≤xn}
- n维密度函数 :f(x1、x2、x3·····xn)的n重积分就是n维分布函数
- 已知n维分布函数,确定每一个随机变量的边缘分布函数Fxkl(xk,∞,∞,∞,∞)
- 如果n个变量相互独立,则n维分布函数F(x1、x2、x3·····xn) = Fx1(x1)Fx2(x2)Fx3(X3)····Fxn(xn)
- 如果融合n个x变量又融合m个y变量的联合分布函数F(x1、x2、x3·····xn, y1、y2、y3·····ym) = n个x变量的联合分布函数F1(x1、x2、x3·····xn) 乘以 m个y变量的联合分布函数 F2(y1、y2、y3·····ym)。那么得出结论:两组随机变量相互独立。
- 总结:n个x变量之间相互独立,m个y变量之间也相互独立。x变量集合和和y变量集合也相互独立,那么n个x变量的分布函数和m个y变量的分布函数也相互独立。
- 两个随机变量的函数的分布规律
- 一个变量的函数分布,本质研究一个密度函数曲线;两个变量的函数分布本质,本质研究两个边缘密度函数曲线构成的曲面
- Z = X+Y分布
- Z = X+Y分布
- 已知(X,Y)的概率密度f(x,y)、Z=X+Y。求得Z的概率密度fX+Y(z) = f(z-y,y)dy积分 Or f(x,z-x)dx积分
- 已知X的边缘密度fX(x)、Y的边缘密度fY(y) 、Z=X+Y。求解Z的边缘密度。第一步根据变量独立性求出XY的联合密度函数;第二步将联合密度函数中的X变量用Z和Y代替,然后求Y的定积分消去Y,于是便得到Z的一维概率密度曲线函数。
- 总结:X和Y相互独立,已知X和Y的边缘密度,可得XY的联合密度函数、联合分布函数、边缘分布函数。
- 卷积公式: fX*fY = Z的概率密度曲线函数 = XY联合密度函数的积分 。物理意义:一个函数在另一个函数上的加权叠加。脉冲依次排队进入系统,前一个已经衰减了一部分,后一个脉冲又已经进入,于是产生叠加,求最后的时间积分叠加。计算一个信号在t=4时刻其影响,但是t=0,1,2,3时刻的影响还未完全消失,只是说在不断衰减,但是影响依旧在,于是必须要考虑这些影响并按照权重来叠加
- 卷积公式的证明?见截屏
- 总结:已知XY两个随机变量相互独立,且X和Y都属于N(μ,σ^2)正态分布。那么:Z=X+Y最后得到的卷积公式仍然服从正态分布。
- 推广:n个独立正态随机变量之和Z=X1+X2+X3+····Xn的卷积公式即Z的密度曲线函数依然服从正态分布
- 问题:为什么把两个独立随机变量的和即新变量Z=X+Y的密度曲线函数求解公式称为卷积公式?本质应该是两个不相干的变量的和的概率分布规律!
- 进一步推广:除了Z=X+Y独立变量的线性加以外,其他有限个相互独立的正态随机变量的线性组合,仍然服从正态分布
- 边缘密度和联合密度关系
- 边缘密度等于联合密度的一重积分
- 自然联合密度等于边缘密度的求导
- 边缘密度再来一重积分 = 分布函数
- 联合密度 = 边缘密度相乘
- 联合密度函数两重积分 = 分布函数
- 改变联合分布函数其中一个变量的上限为∞ = 边缘分布函数 = 其中一个变量上限为∞时联合密度函数的二重积分
- 分布函数二阶求导 = 联合密度函数
- 联合密度函数的一重积分 = 边缘密度函数
- X边缘密度函数*Y边缘密度函数 = XY的联合密度函数。前提,X和Y相互独立
- 已知X和Y各自边缘密度函数,求解X+Y的一维变量的密度曲线函数。难点:找出Z的分段区间,通常都是把y用Z和X来表示,然后画出z-x图形,对x求积分,这个图形是在怎么画出来的呢?使用卷积公式特别简单,难的是确定这个区间呀!
- Z = Y/X、Z = XY分布
- fY/X(z) = |x| * X边缘密度 * ZX表示的Y边缘密度 的 x积分
- fXY(z) = 1/|x| * X边缘密度 * Z/X表示的Y边缘密度 的 x积分
- 地震的保险就是这么算出来的。厉不厉害!
- 独立随机变量简单函数的密度函数证明
- 已知Y/X=Z这个函数关系,求解Z的分布函数。第一步找出分布函数坐标系中满足关系的区域;第二步分别求密度函数在条件区域的二重积分并累加;第三步替换y为x和u的关系式(高能预警,严重注意。|x|和1/|x|就是这么来的,至于绝对值,那是因为);
- 已知Y和X的分段密度函数,求解随机变量简单函数的分布函数
- M = max{X , Y}及N = min{X, Y}的分布
- 已知X和Y边缘分布函数,求解X和Y中最大最小值的分布函数
- M = max{X , Y}的分布函数Fmax(z) = P{M ≤ z} = P{X ≤ x,Y ≤ y} = P{X ≤ z} * P{Y ≤ z}
- N = min{X, Y} = P{N ≤ z} = 1 - P{N > z} = 1 -P{X>z, Y>z} = 1 - P{X>z}P{Y>z} = 1 - [1-P(X≤z)][1-P(Y≤z)] = 1-[1-FX(z)]*[1-FY(z)]
- 总结:1、M = max{X , Y} ≤ z 等价于 X≤ z和Y≤ z 2、N = min{X, Y} ≤ z 等价于 1 - P{X > z} * P{Y > z},P{X > z } 等价于 1 - P{X ≤ z }
- 独立最大最小应用场景
- 已知独立XY各自的边缘密度函数,求解最大最小联合密度函数。第一步分别求出X和Y的边缘分布函数;第二步确定是求最小还是求最大联合分布函数;第三步根据公式求出符合条件的联合分布函数;第四步联合分布函数求导得到相应的联合密度函数
- 已知独立XY各自的边缘密度函数,求解Z=X+Y的密度曲线函数。第一步列出边缘密度函数相乘,用z-x替换y并;第二步确认z的下限也就是dx的积分下限;第三步求x的定积分得到z的概率密度函数;第四步将P(z)为0的区间用分段函数列出来构成分段概率密度函数
- 课后习题
- 已知X边缘密度、Y边缘密度、求解X<Y概率。
- 已知分布函数,求解边缘分布函数
- 抛硬币3次,X表示前两次H,Y表示前三次H,求解联合分布律和边缘分布律
- 已知联合概率密度、求解边缘概率密度
- 已知联合分布律,求解边缘分布律、条件分布律
- X婴儿个数、Y男婴个数。已知联合分布律,求解边缘分布律
- 已知联合概率和古典概率,求解条件概率
- 区间条件概率
- 已知联合密度,求解条件密度
- 已知X均匀分布密度,Y的条件密度。求解联合密度、边缘密度、P(X>Y)
- 已知分布函数,证明独立;已知联合分布律,证明独立
- 已知X均匀密度,Y的密度函数。求解联合密度、一元二次方程有实根本质求解X和Y的区间概率
- 已知X和Y的均匀密度函数。求联合概率密度、计算不同区域概率
- 已知随机变量X和Y的概率密度。求条件概率、Z的分布律和离散型变量的分段分布函数
- 已知X和Y的联合密度,求解Z=X+Y密度,Z=XY密度,Z=Y/X密度
- 已知一周的概率密度,求解两周三周的概率密度
- 已知联合密度。证明相互独立、Z=X+Y密度
- 已知X和Y的均匀密度。求解Z=XY密度
- 已知X、Y的正态密度。求解Z=(X^2+Y^2)^(1/2)概率密度
- 已知联合密度。求解常数、边缘密度、MAX(X,Y)分布函数
- 习题总结
- 初次成功的n次伯努利实验中,n取偶数的概率是Σ(n=1~∞)p^(2n-1)q
- X和Y分别为两个分布律,P(X<Y) = P(x1,y1) U P(x1,y1) U P(x1,y1)求并集。同时P(X>Y)=1-P(X<Y)-P(X=Y)
- 伯努利概率 = 条件样本/样本总量
- 分布函数一定递增,0到1区间从左到右
- e^(-x^2/2)=(2π)^(-1/2)、e^(-u^2)=(2π)^(-1/2)/2^(1/2)
- 频繁程度=多久一次。指数分布,密度函数是一个底数为e的指数函数。分布函数即不定积分的常数为1.
- 分布函数=0.8的均匀分布+0.2的0点分布