研究方法入门
考虑因素:
- 测试样本
- 测试方法
- 样本数量
- 样本范围
- 隐藏变量
总体参数(总体均值)mu是用来描述整个总体的值。
![](http://chart.googleapis.com/chart?cht=tx&chl=\Large \mu = \frac{\sum_{1}^{N}
\bar{x}}{N})
样本统计量(样本均值)x-bar是用来描述样本的。我们使用统计量来估计总体参数。估计值是我们对总体参数的最佳猜测。
![](http://chart.googleapis.com/chart?cht=tx&chl=\Large \bar{x} = \frac{\sum_{1}^{n} x}{n})
抽样误差是mu - x-bar表示样本参数与总体参数的误差。
样本大小n是取样的数量。
图表可视化
频率是y轴上的值。
集中趋势
众数(mode)是频率最高的x轴上的值。
平均值(mean)受极值的影响大,中位数(midean)受极值的影响小。
中位数偶数:midean = (num(n/2) + num((n+1)/2)) / 2
中位数奇数:midean = num((n+1)/2)
可变性
四分位差(IQR)是全部数据砍掉前25%和后75%的值域,Q1是第一个四分位点(25%),Q3是第三个四分位点(75%),IQR能避免受异常值的影响。
异常值定义:
- Outliner < Q1 - 1.5(IQR)
- Outliner > Q3 + 1.5(IQR)
平均绝对偏差:![](http://chart.googleapis.com/chart?cht=tx&chl=\Large dev = \frac {\sum |\bar{x}-x_i|}{n})
平均平方偏差(方差):![](http://chart.googleapis.com/chart?cht=tx&chl=\Large dev = \frac {\sum (\bar{x}-x_i)^2}{n})
标准偏差:用于消去单位的平方。
![](http://chart.googleapis.com/chart?cht=tx&chl=\Large \sigma = \sqrt {\frac {\sum (\bar{x}-x_i)^2}{n}})
样本标准偏差:采用贝塞耳修正,即除以n-1,为了减少样本偏差与总体偏差的差距。
![](http://chart.googleapis.com/chart?cht=tx&chl=\Large \sigma = \sqrt {\frac {\sum (\bar{x}-x_i)^2}{n-1}})
归一化
标准差数量:x为目前值,mu为平均值。
![](http://chart.googleapis.com/chart?cht=tx&chl=\Large z = \frac {x-\mu}{\sigma})
正态分布
正态分布两边对称。
3sigma规则:
Z-表格里面的数值是小于Z的比例,纵行为sigma数![](http://chart.googleapis.com/chart?cht=tx&chl=\Large \frac{Z-\mu}{\sigma})含小数前一位,横行为小数一位后,Z-表格:
抽样分布
样本均值的均值:总体样本的均值M。
中心极限定理:标准误差:![](http://chart.googleapis.com/chart?cht=tx&chl=\Large \frac{\sigma}{SE}=\sqrt n)
其中sigma为总体方差,SE为样本方差,n为样本数,可用Dice尝试