统计基础三

\color{black}{\huge\mathbf{统计量}}

1. 样本均值(sample mean)

是在总体中的样本数据的均值,均值均值是表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数。它是反映数据集中趋势的一项指标,样本均值是总体均值的点估计(point estimator)

\color{black}{\normalsize\mathtt{\vec{x} = \frac{ \sum_{i=0}^n{x_i} }{n} }}
n是样本数,x_i 表示第i个x的值

# 均值
pd.DataFarme.mean()
np.mean(data)

from scipy import stats
# 使用t检验
# 第二个为p值

# 可以进行单样本T检验
stats.ttest_1sampl(a=检测数据,popmean=假设值,axis=0, nan_policy='propagate')
# nan_policy default return nan

# 检验两个独立样本的均值是否存在显著差异
stats.ttest_ind(a=样本数据1, b=样本数据2, equal_var=True)
equal_var可以用检测方差齐性来判断

检验两个配对样本的均值是否存在显著差异

stats.ttest_rel(sample1, sample2)

2 样本方差(sample variance)

在许多实际情况下,数据的真实差异事先是不知道的,必须以某种方式计算。 当处理非常大的数据时时,不可能对真实数据集中的数据进行处理,需要抽取一些样本计算其方差,也就是每一个数据与其总体均值的距离的平均数。而且样本方差是总体方差的点估计(无偏估计):

\color{black}{\normalsize\mathtt{S^2 = \frac{ \sum_{i=0}^n{(x_i - \mu)^2} }{n-1} }}
n是样本数,x_i 表示第i个x的值,\mu总体均值

均值
pd.DataFarme.var() # 默认ddof=1
np.var(data, ddof=1) # 默认ddof=0

检验方差齐性
from scipy import stats
# p_val > 0.05 则表示齐性
# 返回的第二个值为p值

stats.bartlett(sample1, sample2,....)
# 但是需要具有正太性

stats.levene(sample1, sample2, sample3,...., center='median', proportiontocut=.05)
# center{‘mean’, ‘median’, ‘trimmed’}

stats.fligner(sample1, sample2,..., center='median', proportiontocut=0.05)
# 非参数检验,也不依赖分布

3. 标准差系数

当需要比较两组数据离散程度大小的时候,如果两组数据的测量尺度相差太大,或者数据量纲的不同,直接使用标准差来进行比较不合适,此时就应当消除测量尺度和量纲的影响,而变异系数可以做到这一点,它是原始数据标准差与原始数据平均数的比。这样就可以进行客观比较了。事实上,可以认为变异系数和极差标准差方差一样,都是反映数据离散程度的绝对值。其数据大小不仅受变量值离散程度的影响,而且还受变量值平均水平大小的影响。简单的说:概率分布离散程度的归一化

\color{black}{\normalsize\mathtt{C_v = \frac{ \sigma }{ \mu } }}
n是样本数,\sigma 表示标准差,\mu均值

pd.Series.std() \ pd.Series.mean()

stats.variation(sample)

# 以上对一组数据计算,略有细小偏差

4. 样本阶

是样本的数字特征,他们是模拟总体数字特征构造的,称为样本矩。样本矩主要包括样本均值、未修正样本方差(总体方差)、样本(修正)方差(样本方差)、样本k阶原点矩和样本k阶中心距

样本k阶原点矩是随机变量x'偏离'原点(0,0)的'距离'的k次方的期望值,1阶原点矩是数学期望

\color{black}{\normalsize\mathtt{\vec{x}_k = \frac{ 1}{ n }\sum_{i=1}^{n} {x_i}^k }}
n是样本数,{x_i}^k 第i个x的值的k方

样本k阶中心矩是随机变量x'偏离'中心(均值)的'距离'的k次方的期望值,2阶中心矩是方差;3阶(中心)矩表示 偏斜度; 4阶(中心)矩表示 峰度;

\color{black}{\normalsize\mathtt{\vec{\beta}_k = \frac{ 1}{ n }\sum_{i=1}^{n} {(X_i - \vec{X}) }^k }}
n是样本数,{x_i}^k 第i个x的值的k方, \vec{X} 为均值

5. 样本峰度(sample kurtosis)和样本偏斜(sample skewness)

样本峰度是 4阶(中心)矩/方差平方

# pandas 
pandas.Series.kurt()
# stats
stats.kurtosis(a=sample, axis=0)

stats.kurtosistest(a=sample, axis=0, nan_policy='propagate')
# default returns nan
# pvalue 双侧检验 检验峰度是否符合正态分布的峰度
# 只对样本>20有效

样本偏斜是 3阶(中心)矩

# pandas 
pandas.Series.skew()
# stats
stats.skew(a=sample, axis=0, bias=True, nan_policy='propagate')
# nan_policy return nan default
# 对于正太数据和所有数据都相等 return 0
# > 0 是高峰左移, 右偏,正偏, < 0高峰右移,左偏,负偏

stats.skewtest(a=sample, axis=0, nan_policy='propagate')
# nan_policy return nan default

# 样本>18
# pvalue 双侧检验 检验偏度是否符合正态分布的峰度


# 检验正态分布
stats.normaltest(a, axis=0, nan_policy='propagate')
# nan_policy return nan default
# 样本 > 8
# 双侧检验偏度是否符合正态分布

6 次序统计量(Ordered Statistics)

\zeta_1,\zeta_2, …, \zeta_n是取自总体X的子样本,x_1, x_2, ...... x_n 称为该样本的观测值,从小到大排列用x_(1), x_(2), ...... x_(n),即x_(1)<= x_(2)<=...... <=x_(n) ,如果有两个值是相等的,他们先后次序是可以任意安排。第i个次序统计量\zeta_(i)是子样本\zeta_1,\zeta_2, …, \zeta_n不管是哪一组x_1, x_2, ...... x_n,其取得的观测值总是其中x_(i)为观测值。

对于容量为n的子样本可得到n个次序统计量\zeta_(1)<=\zeta_(2)<= …<=\zeta_(n),其中:
   - \zeta_(1)最小次序统计量
   - \zeta_(n)最大次序统计量
   - 极差:\zeta_(n) - \zeta_(1)
   - 四分卫极差:iql = X_(.75n) - X_(.25n)
   - 中位数:
      奇数: X_(m+1)
      偶数: (X_(m+1) + X_(m))/2

给定任意随机变量
如果样本\zeta_1,\zeta_2, …, \zeta_n 是独立同分布的,而次序统计量x_(1), x_(2), ...... x_(n)是独立但不一定同分布。次序统计量的CDF(遵循二项分布):

F_{x_{(r)}} (x) = \sum_{j=r}^n ( _j^n)[F_x(j)]^j[1-f_x(x)]^{x-j}
r:第r个次序统计量

对于最大值和最小值的CDF:

F_{x_{(n)}} (x) = [F_X(x)]^n
F_{x_{(1)}} (x) = 1-[1-F_X(x)]^n

\color{black}{\huge\mathbf{抽样分布}}

1. 前言

数据的集中趋势离散程度分布形态了解数据和进行数据分析的基础。实际上数据总体不是够轻易得到的,即使能够得到,数据分析的成本巨大且效率低。因此,通过样本推导总体成为首选。在推断统计学中定距数据定比数据的特性决定了它们是最适合进行推断分析的数据,描述数据的三个维度主要也是针对定距数据定比数据进行的

从样本推断总体,最重要的就是通过样本的描述性统计指标推断总体的描述性统计指标,也就是表现总体的集中趋势离散程度分布形态,从而还原出总体数据的形象。描述性统计指标也被称为参数,而连接样本参数总体参数的桥梁就是:抽样分布

抽样方式

  • 无限总体进行抽样(N>= n*50倍以上)以及 从有限总体进行有放回抽样
    因为样本是无限多,可以抽取有限但大量的样本,由这些样本参数组
    成的概率分布也是抽样分布

  • 从有限总体进行无放回抽样
    尽量全测量,样本推断总体存在误差。全测量得到的所有样本参数组成的概率分布就是其抽样分布。

均值抽样的性质
均值抽样的均值或数学期望等于总体均值,那么其均值是总体均值的无偏估计

均值分布的标准差在实际中计算很麻烦,如果已知总体标准差可以来推断均值样本分布的标准差\sigma_{\overline{x}
有限总体:
\sigma_{\overline{x}} = \sqrt{ \frac{N-n}{n-1}}(\frac{\sigma}{\sqrt{n}})
无限总体
\sigma_{\overline{x}} = \frac{\sigma}{\sqrt{n}}

在有限总体中当(N/n>20)那么修正因子的值将近似等于1,上述两个计算式相等,即有限总体无放回抽样的情况可以省略修正因子

中心极限理论

给定一个任意分布的总体。每次从这些总体中随机抽取 n(n>=30) 个抽样,一共抽 m 次。 然后把这 m 组抽样分别求出平均值。 这些平均值的分布接近正态分布

Z分布

转换成标准正态分布的均值抽样分布称为Z分布,而均值抽样分布服从正态分布有两种情况:
  1. 抽样的总体是正态分布, 样本容量没有要求
  2. 是任意分布的总体,根据中心极限定理,当样本容量n大于或等于30时,均值的抽样分布也会服从正态分布
Z统计量就是普通正态分布转换成标准正态分布的公式。

Z = \frac{\overline{x }- \mu_z}{ \frac{\sigma_z}{\sqrt{n}} }

可以通过Z分布通过样本信息推断总体均值,运用到总体参数估计和假设检验中

T分布

不同于Z分布,用于根据小样本来估计呈正态分布方差未知的总体的均值。如果总体方差已知(例如在样本数量足够多时),则应该用正态分布来估计总体均值(Z分布)。其统计量为:

t(v) = t(n-1) = \frac{\overline{x }- \mu_z}{ \frac{S}{\sqrt{n}} }
\overline{x }:样本均值,s样本标准差,\mu:总体均值,v:自由度,n:样本容量,t:T统计量值

如果已知等待分析的总体服从正态分布,从总体中抽取容量为n的所有可能样本,对每个样本都计算出它们相应的T统计量,则所有T统计量的值将组成一个连续型概率分布,这个分布就是T分布,T分布的
概率密度函数为

f(t) = c(1+\frac{t^2}{v})^{-\frac{(v+1)}{2}}
t:T统计量;v:自由度,n-1;·c为常数,使T分布函数曲线下的面积等于1

如果总体服从正态分布,总体标
准差未知,样本容量小于30,那么样本均值的抽样分布服从T~t(n-
1)的T分布;如果总体服从正态分布,总体标准差未知,样本容量大于或等于30时,那么样本均值的抽样分布不仅服从T~t(n-1)的T分布,而且还可以用Z分布来近似表达

切比雪夫定理

是一个统计规律,可以继续补充均值抽样分布。假设数据集合,其均值\mu,标准差\sigma,对任意常数k>=1,位于区间[\mu - k\sigma, \mu + k\sigma]内的数据比例会大于等于1-\frac{1}{k^2},即P(\mu ± k\sigma) >/= 1-\frac{1}{k^2}。并且无论是对称分布、有偏斜的分布还是多峰分布,切比雪夫不等式都成立。如果数据集合只是来自总体的一个随机样本,那么样本均值等于总体均值\mu,样
本标准差s是总体标准差的合理估计,切比雪夫不等式还可以表示为:P(\mu ± ks) >/= 1-\frac{1}{k^2}

均值抽样分布

卡方分布

卡方统计量:是一个随机变量,它能够表明样本方差总体方差之间的比值关系。卡方统计量决定的抽样分布就是卡方分

\chi^2 = \frac{(n-1)S^2}{ \sigma^2 }
s^2代表样本方差;· \sigma^2代表总体方差;n-1代表自由度

卡方分布
n个相互独立的随机变量\zeta_1, \zeta_2, ...,\zeta_n,并服从标准(独立同分布于)正态分布。对每一个样本都计算它的卡方值那么这些卡方值将构成关于样本方差和总体方差的卡方分布。卡方分布是一个连续型概率分布,它的概率密度函数为:

f(\chi^2) = c(\chi^2) ^ {\frac{v}{2}-1}exp^{-\frac{\chi^2}{2}}

\chi^2代表卡方统计量;exp是自然底数,等于2.72;
·v代表自由度,等于样本容量n-1;
·c代表调节常数,使得卡方分布曲线下方的总面积等于1

 # 产生服从卡方分布的随机数
stats.chi2.rvs(df,loc=0,scale =1,size=1, random_state=None)

# 概率密度函数
stats.chi2.pdf pdf(x=随机变量,df=n[自由度],loc=0,scale =1,) 

# 累计分布函数:返回PDF在0到x上的积分,也就是概率分布函数的值
stats.chi2.cdf (x,df)

# 残存函数(1-cdf)
stats.chi2.sf 

 # 返回指定的统计数据(均值,方差,斜度,峰度)
stats.chi2.stats(df, ments='mvks')

# 数学期望
chi2.expect(func = f , args=(df,))

# 逆残存函数:返回值s满足chi2.cdf(s, n) = alpha, s就是alpha分位数
stats.chi2.isf (1-alpha, df)

# 返回值s满足chi2.cdf(s, n) = alpha, s就是alpha分位数
stats.chi2.ppf(alpha, df) 


stats.chi2.fit # 对随机取样进行你和,最大似然估计找到的概率密度函数系数

F分布

F分布处理的则是两个总体之间的关系,即通过两个样本之间的关系推导出两个总体之间的关系。
假设两个正态分布总体的方差分别为\sigma_1^2\sigma_2^2,分别从两个正态分布总体中抽取样本容量为n_1n_2的样本,样本方差分别为S_1^2S_2^2,其F统计量为:

F = \frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} = \frac{S_1^2/\sigma_2^2}{S_2^2/\sigma_1^2}

可以认为是两个卡方统计相除,也叫方差比分布,是方差分析的基础。其有俩个自由度,一般来说卡发值的作为分母的作为分子,由分子和分母的两个自由度决定一个F分布曲线,F分布的概率密度函数为:

f(F) = cF^{(\frac{v_1}{2})-1}(1+\frac{v_1F}{v_2})^{\frac{v_1+v_2}{2}}
F:F统计量,v_1:F统计量分子的自由度,v_2:F统计量分母的自由度,c代表修正常数,它使得F分布曲线下方的总面积等于1。

因为F统计量是由两个独立的卡方统计量被各自的自由度相除后的
比,所以F分布的分布曲线与卡方分布曲线相似。随着自由度的增加,F分布的分布曲线也越来越对称,且对称的中点为1。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,658评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,482评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,213评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,395评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,487评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,523评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,525评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,300评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,753评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,048评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,223评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,905评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,541评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,168评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,417评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,094评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,088评论 2 352

推荐阅读更多精彩内容