数据分析_统计学基础_《深入浅出统计学》读书笔记

《深入浅出统计学》读书笔记

1、信息图形化

饼图

对不同组(或者类)所占的比例进行比较

条形图

对大小进行比较,但更精确、更灵活
注意频数百分比同时展示

可以在一张表中体现多批数据:

  • 堆积条形图
  • 分段条形图

直方图

用来体现分组数据
长方形之间没有间隔

面积与频数成比例

  • 长方形面积 = 每组频数
  • 频数 = 长方形宽度 ✖ 长方形高度
  • 频数密度 = 频数 / 组距

累计频数

到某个特定数值为止的总频数,频数的累计总和

折线图

体现趋势
不要使用折线图显示类别数据


2、集中趋势的量度

均值

与平均数的不同:平均数不止一种,包括均值、中位数、众数

Σx(sum,读作“西格玛”) = X₁ + X₂ + ··· + Xn
μ(均值,读作“Mu”) = Σx / n

处理频数(f代表频数)相关的均值:

Σfx = f₁*X₁ + f₂*X₂ + ··· + fn*Xn
Σf = f₁ + f₂ + ··· + fn
μ = Σfx / Σf

关注重要统计量

  • 异常值
    与其他数据格格不入的极高或极低的数值
  • 偏斜数据
    • 向右偏斜
      右侧有一条尾巴,有偏大异常
    • 向左偏斜
      左侧有一条尾巴,异常值位于低端

中位数

在数据由于异常值而发生偏斜时使用

  1. 排列
  2. 计算(n+1)/ 2,取数或左右两侧平均值

众数

众数可能不止一个
众数不仅能用于数值型数据,也是唯一能用于类别数据的平均数


3、分散性与变异性的量度

分散性

量度全距

也叫极差:上界 -下界
仅仅描述了数据宽度,并没有描述数据的分布形态,无法摆脱异常值的影响

四分位数

  1. 升序排列
  2. 四个相等的数据块,各包含四分之一的原有数据
  • Q1:下四分位数,第一四分位数,最小的四分位数
    "n ÷ 4"(向上取整),和下一个数的平均值
  • Q3:上四分位数,第三四分位数,最大的四分位数
    "3n ÷ 4"(向上取整),和下一个数的平均值
  • Q2:中位数
    "n ÷ 2"(向上取整),和下一个数的平均值

四分卫距(IQR):Q3 - Q1
四分卫距仅使用了中间50%的数据,如此将异常值弃而不用

百分位数

  1. 升序排序
  2. 第K百分位数的位置:K*(n/100)

箱线图

箱线图

变异性

方差

度量数据分散性的一种方法,数值与均值的距离的平方数的平均值

σ² = Σ(x - μ)² / N
σ² = ( Σx² / N ) - μ²

标准差

方差(σ²)的平方根

σ(标准差,读作“西格玛”) = √方差

标准分

比较不同数据集中的数值分布
将几个数据集转换成通用分布,均值为0,标准差为1
标准分 = 距离均值的标准差个数

z(标准分) = (x - μ) / σ
标准差检测异常值:偏离均值超过三个标准差的数值

4、概率计算

维恩图

概率树

概率

P(A) = n(A) / n(S)

  • P(A):发生事件A的概率
  • n(A):发生事件A的可能数目
  • n(S):概率空间,样本空间,所有可能结果的数目

交集 和 并集

交集 ∩ 表示"与"
并集 ∪ 表示"或"

P(A∪B) = P(A) + P(B) - P(A∩B)

对立事件(穷举事件)

A'是A的对立事件,即事件A不可能发生的事件

P(A') = 1 - P(A)
P(A∪A') = 1

互斥事件

如果两个事件互斥,则这两个事件有不可能同时发生

P(A∩B) = 0
P(A | B) = 0
P(B | A) = 0

穷举事件

P(A∪B) = 1

相交事件

如果两个事件相交,则这两个事件有可能同时发生

条件概率

P(A|B):在已知B发生的条件下A的概率

  • P(A|B) = P(A∩B) / P(B)
  • P(A∩B) = P(B) × P(A|B) = P(B∩A) = P(A) × P(B|A)

全概率

根据条件概率计算一个特定事件的全概率

P(B) = P(A∩B) + P(A'∩B)
P(A∩B) = P(A) × P(B|A)
P(A'∩B) = P(A') × P(B|A')
P(B) = P(A) × P(B|A) + P(A') × P(B|A')

贝叶斯定理

一种计算逆条件概率的方法:在需要求出条件概率,且该条件概率与已知条件概率顺序相反时用

P(A|B) = {P(A) × P(B|A) \over P(A) × P(B|A) + P(A') × P(B|A')}


相关事件 与 独立事件

如果几个事件互有影响,则为相关事件
如果几个事件互不影响,则为独立事件
建议:不要用维恩图来思考独立性,因为一张维恩图中,两个事件肯定会有影响;独立事件是两张独立的维恩图;

独立事件
P(A|B) = P(A)

  • P(A|B) = P(A∩B) / P(B)
  • P(A) = P(A∩B) / P(B)
  • P(A∩B) = P(A) × P(B)

独立事件 vs 互斥事件

如果A和B是互斥事件,即如果A发生,则B不发生,这是一种相关关系,二者不是独立事件;反之,如果A和B是独立事件,则二者不会互斥。

5、离散概率分布的运用

期望 和 方差

E(X) = μ = Σ(x * P(X=x))
E(f(X)) = Σ(f(x) * P(X=x))
E(X²) = Σ(X² * P(X=x))
Var(X) = σ²
Var(X) = E(X - μ)²

Var(X) = E(X²) - μ²
Var(X) = Σ((x - μ)² * P(X=x))

σ = \sqrt {Var(X)}

线性变换

变量X按照aX + b的形式发生变换(改变基础数据)

E(aX + b) = aE(X) + b
Var(aX + b) = a²Var(X)

独立观测值

这些观测值都有相同的概率分布

E(X₁ + X₂ + ··· + Xn) = nE(X)
Var(X₁ + X₂ + ··· + Xn) = nVar(X)

独立的随机变量

这些观测值相互独立,没有关系

E(X + Y) = E(X) + E(Y)
E(X - Y) = E(X) - E(Y)
Var(X + Y) = Var(X) + Var(Y)
Var(X - Y) = Var(X) - Var(Y)

线性变化 + 加减运算

E(aX + bY) = aE(X) + bE(Y)
E(aX - bY) = aE(X) - bE(Y)
Var(aX + bY) = a²Var(X) + b²Var(Y)
Var(aX - bY) = a²Var(X) + b²Var(Y)

6、排列与组合

排位

n 个独立对象的可能的排列方式

阶乘 n! = n × (n-1) × (n-2) × ··· × 3 × 2 × 1

圆形排位

不在意名次,只在意顺序

(n-1)! = (n-1) × (n-2) × ··· × 3 × 2 × 1

按种类排位

需要清点n个对象的排位方式,但有k个对象是类似的(不关注内部排位)

{n! \over k!}

需要清点n个对象的排位方式,第一类对象有k个,第一类对象有j个···

{n! \over k! * j! ···}

排列

从n个对象中选取出r个对象

^nP_r = {n! \over (n - r)!}

组合

从n个对象中选取出r个对象,但不关注r个对象的顺序

^nC_r = {\begin{pmatrix} n\\ r\\ \end{pmatrix}} = {n! \over (n - r)! * r!}

7、几何分布、二项分布、柏松分布

离散型概率分布

  • r发生的概率:
几何分布 二项分布 泊松分布
定义 进行多次独立的实验,每一次实验都存在成功或失败的可能,问题:为了取得第一次成功需要进行多少次实验 进行固定次数的独立实验时,每次都存在成功或失败的可能,问题:成功的次数 已知λ为给定时间或空间的事件发生频次,问题:发生特定频次的概率
表示方式 X ~ Geo(p) X ~ B(n,p) X ~ Po(λ)
概率P(X=r) P(X=r) = p * qr-1
P(X>r) = qr
P(X≤r) = 1 - qr
nCr * pr * qn-r {e^{-λ}λ^r \over r!}
期望E(X) 1/p np λ
方差Var(X) q / p² npq λ

注:

  • 二项分布是唯一与比例有关的分布
  • 泊松分布:对独立随机变量进行组合

如果X ~ Po(λ)且Y ~ Po(λ),则:
X + Y ~ Po(λx + λy)

  • 泊松分布与二项分布有何关系

如果X ~ B(n,p),当n较大而p较小时(np与npq值近似),X可以近似表示为:
X ~ Po(np)

8、正太(高斯)分布的运用

连续性概率分布
连续数据包含了一个数据范围,这个数据范围内的数值都可能发生;

概率密度函数

描述连续随机变量的概率分布;特定数值范围的概率大小,通过概率密度线下方的面积表示;面积之和等于1

正太分布

钟形曲线,曲线对称,中央部位的概率密度最大;均值和中位数位于中央,具有最大的概率密度;
正太分布通过参数μ和σ²进行定义:

X ~ N(μ,σ²)

  • μ:指出曲线的中央位置
  • σ²:指出分散性
正太概率计算三部曲
  1. 确定μ和σ²
  2. 使其标准化
  3. 查找概率

标准化(Z为标准分,说明了数值与均值相距多少个标准差):

Z = {X-μ\overσ}

求解P(a<Z<b)

P(a<Z<b) = P(Z<b) - P(Z<a)

正态分布概率表

9、再谈正太分布的运用

X 概率变化

X + Y X - Y aX + b X₁ + X₂ + ··· + Xn
~ ~ N(μ,σ²) ~ N(μ,σ²) ~ N(aμ+b,a²σ²) ~ N(nμ,nσ²)
μ μx + μy μx - μy aμ+b
σ² σx² + σy² σx² + σy² a²σ² nσ²

二项分布的近似

如果X ~ B(n,p),当np>5,nq>5,X可以近似表示为:
X ~ N(np,npq)

泊松分布的近似

如果X ~ Po(λ)且λ>15,则X可以近似表示为:
X ~ N(λ,λ)

连续性修正

二项分布、泊松分布是离散分布,正态分布是连续分布,用正态分布近似替代需要连续性修正

  • ≤型概率的求解
    如果求P(X≤a),实际上需要计算P(X<a + 0.5)
  • ≥型概率的求解
    如果求P(X≥a),实际上需要计算P(X>a - 0.5)
  • "介于"型概率的求解
    如果求P(a≤X≤b),实际上需要计算P(a - 0.5 < X < b + 0.5)
适用正太分布的经验法则
  • 大约68%的数值位于距离均值1个标准差的范围内
  • 大约95%的数值位于距离均值2个标准差的范围内
  • 大约99.7%的数值位于距离均值3个标准差的范围内
适用于任何分布的切比雪夫定理
  • 至少75%的数值位于距离均值2个标准差的范围内
  • 至少89%的数值位于距离均值3个标准差的范围内
  • 至少94%的数值位于距离均值4个标准差的范围内

10、统计抽样的运用

抽样三要素

  • 目标总体:所有时间的集合
  • 抽样单位
  • 抽样空间

抽样方法

  • 简单随机抽样
    • 重复抽样:放回总体
    • 不重复抽样:不放回总体
  • 分层抽样:将总体分割为几个相似的组,每个组具有类似的特征
  • 整群抽样:对群进行简单随机抽样,尽量保证群与群相似
  • 系统抽样:每k个单位进行一次调查

11、总体和样本的估计

均值

样本均值被称为总体均值的点估计量,点估计量可以近似总体参数

μ:总体均值
{点估计量:\hat{μ}} = {样本均值:\overline{x}}
{\overline{x}} = {Σx\over{n}}

方差

{总体方差:σ²} = {{Σ(x-μ)^2}\over{n}}
{点估计量:\hat{σ²}} = {样本估计总体方差:s²}
{s² = {{Σ(x-\overline{x})^2}\over{n-1}}}

预测总体比例(二项分布适用)

p:成功事件的比例
{点估计量:\hat{p}} = {样本成功比例:p_s}
{p_s = {{成功数目}\over{样本数目}}}

为样本计算概率:已知总体参数

比例的抽样分布

已知总体满足x ~ B(n,p),则

样本的成功比例:{P_s = {{x}\over{n}}}

所有样本比例的分布,称作“比例的抽样分布”,或者称作“Ps的分布”,用来描述每个样本的比例形成的抽样分布;即用它来求出从一个已知总体中取出的某个样本的比例的概率。

期望:E(P_s) = E({x\over{n}}) = {E(x)\over{n}} = {np\over n} = p
方差:Var(P_s) = Var({x\over n}) = {Var(x)\over n^2} = {npq\over n^2} = {pq\over n}
比例标准误差:{\sqrt{Var(P_s)}}

注:只有二项分布适用;比例标准误差指出期望的样本比例与总体比例真值的差距。

Ps符合什么分布

当n很大时(n>30),ps 的分布接近正态分布:

Ps ~ { N(p,{pq\over n})}

Ps 需要进行连续性修正
X的正太连续性修正为±(1/2);Ps = X/n

P_s的连续性修正 = {±(1/2)\over n}

抽样分布 — 两个比例之间的差异

E(P_x - P_y) = E(P_x) -E(P_y) = p_x - p_y
Var(P_x - P_y) =Var(P_x) + Var(P_y)= {p_x q_x\over n_x} + {p_y q_y\over n_y}

如果每个总体的np和nq都大于5,则P_x - P_y可以近似于正太分布:

P_x - P_y \sim N\left(p_x - p_y,{p_x q_x\over n_x} + {p_y q_y\over n_y}\right)

均值的抽样分布

已知总体的均值μ和方差σ²,取n个样本从X1到Xn,每一个Xi的期望都是μ,方差都是σ²;可以用{\overline{X}}表示这n个样本的均值。所有样本的期望符合正态分布。
可以利用从所有可能样本得出的所有样本均值形成一个分布,叫“均值的抽样分布”,或叫做{\overline{X}}的分布。
其中:

{\overline{X} = }{X_1 + X_2 + ··· + X_n\over n}

则所有样本均值的均值E({\overline{X}})

E({\overline{X}}) = E({X_1 + X_2 + ··· + X_n\over n})
E({\overline{X}}) = E({1\over n}X_1 + {1\over n}X_2 + ··· + {1\over n}X_n)
E({\overline{X}}) = E({1\over n}X_1) + E({1\over n}X_2) + ··· + E({1\over n}X_n)
E({\overline{X}}) = {1\over n}(E(X_1) + E(X_2) + ··· + E(X_n))
E({\overline{X}}) = {1\over n}(μ + μ + ··· + μ)
E({\overline{X}}) = μ

则所有样本均值的方差Var({\overline{X}})

Var({\overline{X}}) = Var({X_1 + X_2 + ··· + X_n\over n})
Var({\overline{X}}) = Var({1\over n}X_1 + {1\over n}X_2 + ··· + {1\over n}X_n)
Var({\overline{X}}) = Var({1\over n}X_1) + Var({1\over n}X_2) + ··· + Var({1\over n}X_n)
Var({\overline{X}}) = ({1\over n})^2(Var(X_1) + Var(X_2) + ··· + Var(X_n))
Var({\overline{X}}) = ({1\over n})^2(σ² + σ² + ··· + σ²)
Var({\overline{X}}) = {σ^2\over n}

样本均值与μ的可能偏离距离

{均值标准误差 = {σ\over {\sqrt n}}}

抽样分布 — 两个均值之间的差异

E({\overline{X}} - {\overline{Y}}) = E({\overline{X}}) -E({\overline{Y}}) = μ_x - μ_y
Var({\overline{X}} - {\overline{Y}}) =Var({\overline{X}}) + Var({\overline{Y}})= {σ^2_x\over n_x} + {σ^2_y\over n_y}

如果已知总体方差σ^2_xσ^2_y,则\overline X - \overline Y符合正太分布:

{\overline{X}} - {\overline{Y}} \sim N\left(μ_x - μ_y,{σ^2_x\over n_x} + {σ^2_y\over n_y}\right)

{\overline{X}} 如何分布

如果X符合正态分布,则{\overline{X}}均符合正态分布

如果X \sim N(μ,σ²),则{\overline{X}} \sim N(μ, {σ^2\over n})

如果X不符合正态分布

当n很大时,{\overline{X}}仍然可以用正太分布近似
中心极限定理:如果从一个非正太总体X中取出一个样本,且样本很大,则{\overline{X}}的分布近似为正态分布。

使用中心极限定理
  • 二项分布
    总体X ~ B(n,p),μ = np,σ² = npq,如果n大于30,则:

{\overline{X}} \sim N(np,pq)

  • 泊松分布
    总体X ~ Po(λ),μ = λ,σ² = λ,如果n大于30,则:

{\overline{X}} \sim N(λ,λ/n)

注:中心极限定理无需进行连续性修正

12、置信区间的构建

点估计是有价值的,但是存在误差

置信区间

选择a和b,使得该区间中包含总体均值(比例)的概率为m,(a,b)为置信区间:

P(a < μ < b) = m

求解置信区间四步骤(已总体均值μ为示例):
1.选择总体统计量
目标:为总体均值μ构建一个置信区间,即求a、b
2.求解其抽样分布
已知均值的抽样分布和方差:

E({\overline{X}}) = μ
Var({\overline{X}}) = {σ^2\over n}

其中不知道总体方差σ²的真实值,用它的点估计量s²进行估计:

Var({\overline{X}}) = {s^2\over n}

分布形态:
如果X~N(μ,σ²),且样本容量很大,则{\overline{X}}也符合正态分布。
3.决定置信水平
4.求解置信区间上下限
先求Z值:

Z = {{\overline{X} - μ}\over {\sqrt {s^2}}}

根据置信区间(假设m=0.95)和概率表,求Z值的范围。

P(z_a < Z < z_b) = 0.95
P(Z < z_a) = 0.025
P(Z > z_b) = 0.025
P(-1.96 < Z < 1.96) = 0.025
P(-1.96 < {{\overline{X} - μ}\over {\sqrt {s^2}}} < 1.96) = 0.025
{\overline{X}} - 0.98 < μ < {\overline{X}} + 0.98

{\overline{X}}指的是样本均值的分布,可以用样本的{\overline{x}}值。

置信区间的简便算法
总体统计量 总体分布 条件 置信区间
μ 正太 σ²已知
n可大可小
{\overline{X}}为样本均值
\left({\overline{X}}-C{σ\over {\sqrt n}} , {\overline{X}}+C{σ\over {\sqrt n}}\right)
μ 非正太 σ²已知
n很大(至少30)
{\overline{X}}为样本均值
\left({\overline{X}}-C{σ\over {\sqrt n}} , {\overline{X}}+C{σ\over {\sqrt n}}\right)
μ 正太或非正太 σ²未知
n很大(至少30)
{\overline{X}}为样本均值
{s^2}为样本方差
\left({\overline{X}}-C{s\over {\sqrt n}} , {\overline{X}}+C{s\over {\sqrt n}}\right)
p 二项 n很大(至少30)
{p_s}为样本比例
{p_s = 1-p_s}
\left(p_s-C{\sqrt{{p_s q_s}\over n}} , p_s+C{\sqrt{{p_s q_s}\over n}}\right)
p 泊松 λ为期望
λ为方差
\left({\overline{X}}-C{s\over {\sqrt n}} , {\overline{X}}+C{s\over {\sqrt n}}\right)

注:

置信区间 = 统计量 ± (误差范围)
置信区间 = 统计量 ± (c × 统计量的标准差)
C值取决于置信水平

t分布

{\overline{X}}并非任何情况都能用正太分布进行良好的近似,原因有二:

  • 必须用样本数据s²估计σ²
  • 样本如果太小,估计量可能存在较大误差

当总体符合正态分布,σ²未知,且样本很小时,{\overline{X}}符合t分布
t分布只有一个参数{\upsilon}(称为自由度),{\upsilon} = n - 1

T {\sim} t({\upsilon})
t分布的标准分
T = {{\overline X} - μ\over {s/{\sqrt n}}}
P(-t ≤ T ≤ t) = 置信区间

因此置信区间上下限为:

\left({\overline{X}}-t({\upsilon}){s\over {\sqrt n}} , {\overline{X}}+t({\upsilon}){s\over {\sqrt n}}\right)

t分布概率表.jpg

则t分布的上下限

总体统计量 总体分布 条件 置信区间
μ 正太或非正太 σ²未知
n很小(小于30)
{\overline{X}}为样本均值
{s^2}为样本方差
\left({\overline{X}}-t({\upsilon}){s\over {\sqrt n}} , {\overline{X}}+t({\upsilon}){s\over {\sqrt n}}\right)

13、假设检验的运用

假设检验:做出假设或检验,对照证据进行检验

假设检验6步骤

1-确定要进行检验的假设
  • H0:原假设,需要检验的断言
  • H1:备择假设,与原假设对立的断言
    进行假设检验时,假定原假设为真;如果有足够的证据反驳原假设,则拒绝原假设,接受备择假设。
2-选择检验统计量

根据原假设H0选择检验统计量,即一个分布。

3-确定要用于做决策的拒绝域

c:拒绝域的分界点,临界值,需要确认的值
α:显著性水平,希望在样本结果的不可能程度达到多大时,就拒绝原假设H0

P(X < c) < α :左尾检验
P(X > c) < α :右尾检验
P(X < c1) < α/2 和 P(X > c2) < α/2 :双尾检验

  • 单尾检验
    如果备择假设包含一个<符号,则使用左尾
4-求出检验统计量的p值

p值即为取得样本中的各种结果或取得拒绝域方向上的某些更为极端的结果的概率。

5-查看样本结果是否位于拒绝域内
6-做出决策

假设检验的功效

接受H0 拒绝H0
H0 第一类错误
H0 第二类错误 √(检验的功效)

P(第一类错误) = α
P(第二类错误) = β

第二类错误计算

前提:H1需要规定了唯一特定的值

  1. 首先根据显著性水平,计算临界值
  2. 假定 H1为真,得到一个概率分布
  3. 其中满足临界性水平及相反的方向的概率即β
检验的功效

假设检验的功效:在H0为假的情况下拒绝H0的概率。

功效 = 1 - β

14、X²分布

X²分布,“卡方”分布,通过一个检验统计量来比较期望结果和实际结果之间的差别;X²越小,观察频数和期望频数之间的总差值越小。

X^2 = \sum {(O-E)^2\over E}
{O:观察频数,O_1,O_2,O_3,···}
{E:期望频数,E_1,E_2,E_3,···}

X²分布的俩个主要用途
  1. 检验拟合优度
  2. 检验两个变量的独立性
X²分布用到一个参数\upsilon
  • \upsilon <= 2
    先高后低的平滑曲线
  • \upsilon > 2
    随着\upsilon越来越高,接近正太分布

X^2 \sim \chi^2(\upsilon)

\upsilon表示自由度

\upsilon = (组数)-(限制组数)

拟合优度

以显著性水平α进行检验,拒绝域位于上尾,检验统计量数值越大,观察频数和期望频数之间的差异越大:

\chi^2_a(\upsilon)

根据自由度\upsilon和显著性水平α,得到频数的临界值和拒绝域

P(\chi^2_a(\upsilon) ≥ x) = α

卡分布概率表.jpg

自由度
分布 条件 \upsilon
二项分布 已知p
未知p,必须通过观察频数进行估计
\upsilon = n-1
\upsilon = n-2
泊松分布 已知λ
未知λ,必须通过观察频数进行估计
\upsilon = n-1
\upsilon = n-2
正太分布 已知μ和σ²
未知μ和σ²,必须通过观察频数进行估计
\upsilon = n-1
\upsilon = n-3

检验独立性

没有期望频数,生成期望频数:

A B C 合计
x Ax Bx Cx 行合计x
y Ay By Cy 合计y
z Az Bz Cz 合计z
列合计 A合计 B合计 C合计 总和

期望频数 E = {行合计\over 总和} * 列合计

自由度

自由度\upsilon = (行数-1)*(列数-1)

15、相关与回归

  • 自变量或解释变量(x)
  • 因变量或反应变量(y)

散点图指出模式
两个变量之间存在相关关系并不一定意味着一个变量会影响另一个变量,也不意味着二者存在实际关系。

要将误差最小化

误差平方和 SS-E = {\Sigma(y-\hat y)^2}

y = bx + a,最小二乘回归法

b= {\Sigma((x-\overline x)(y-\overline y))\over {\Sigma(x-\overline x)^2}}
回归线需穿越({\overline x , \overline y}
{a = \overline y - b\overline x}

用相关系数 r 衡量直线与数据的拟合度
  • 如果r为负,两个变量之间存在负相关性关系,r越接近-1,相关性越强
  • 如果r为正,两个变量之间存在正相关性关系,r越接近1,相关性越强
  • r向0靠近,线性相关性变弱

r = {bs_x\over s_y}
s_x = {\sqrt {{\Sigma(x-\overline x)^2}\over {n-1}}}
s_y = {\sqrt {{\Sigma(y-\overline y)^2}\over {n-1}}}

最小二乘回归法的其他公式

s_x^2 = {{\Sigma(x-\overline x)^2}\over {n-1}}
s_y^2 = {{\Sigma(y-\overline y)^2}\over {n-1}}
协方差:s_{xy} = {{\Sigma(x-\overline x)(y-\overline y)}\over {n-1}}
b = {s_{xy}\over s_x^2}
r = {s_{xy}\over {s_x s_y}}

决定系数

决定系数以r2或R2表示,可以用x变量进行解释的y变量的变异百分数。有两种计算方式,结果相同

r^2 = \left({s_{xy}\over {s_x s_y}}\right)^2
r^2 = {{\Sigma(y-\hat y)^2}\over {\Sigma(y-\overline y)^2}}

非线性关系

将其转换为线性关系:

y' = bx' + a

回归线斜率的置信区间

{b的置信区间:\hat b ± (误差范围)}
误差范围 = t(\upsilon) × (b的标准差)
\upsilon = n-2
b的标准差:s_b = {{\sqrt {\Sigma(y-\hat y)^2\over n-2}}\over {\sqrt {\Sigma(x-\overline x)^2}}}

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 195,783评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,360评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 142,942评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,507评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,324评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,299评论 1 273
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,685评论 3 386
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,358评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,652评论 1 293
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,704评论 2 312
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,465评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,318评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,711评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,991评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,265评论 1 251
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,661评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,864评论 2 335

推荐阅读更多精彩内容

  • 1,中位数:按从小到大排列好的中间值 2,众数:出现次数最多的那个数 3,方差:数值和均值的距离的平方数的平均值 ...
    沈婷_bbf1阅读 5,102评论 1 2
  • 【概述】 SVM训练分类器的方法是寻找到超平面,使正负样本在超平面的两侧(分类正确性即“分得开”),且样本到超平面...
    sealaes阅读 10,914评论 0 7
  • 最近总是睡不好,不是失眠就是半夜被蚊子咬醒。心中很多杂念,思绪万千,却又理不出来一个头绪。很快就要毕业了,我...
    北镇抚司小旗官阅读 162评论 0 0
  • 这样一群被唤醒的灵魂,一直在做着让自己能够开心振奋的事情,不仅唤醒自己,也唤醒身边人,自己好也要身边人好,所有人好...
    王钰惠_家庭教育阅读 224评论 0 0
  • 我站在树荫里 看见你 看见明媚 看见希望 看见你脸上盛放的光 我说:额尔古纳河里的鱼 跃出水面, 要七秒不能呼吸 ...
    关馨仁阅读 184评论 0 4