大数据时代下的统计学阅读笔记
这本书前四章主要讲了统计的一部分基本概念,我将分章节来进行描述。
第一章:大数据时代下的统计学
什么是统计学?统计学就是如何高效、准确地分析所得数据,并把它转化成比数据本身更有用的知识。其实再我看来数据科学与统计的关联非常大,因为数据科学与统计都是从数据中挖掘有效的信息并有效使用。
知识点: 1、随机性
随机性贯穿了统计学,无论是在抽取样本、计算概率、参数估计等都要满足随机性。例如随机事件、样本从总体中随机抽取等。
2、概率
概率的取值在(0,1),反映了某件事发生的可能性大小。但是在发生前我们都不知道这件事的结果,只是说一种可能性。
3、小概率不等于不发生
概率=0的事件不是不可能发生,只是发生的可能性太小了。概率=0与不可能事件不相等。同理,大概率事件不是一定发生。因为概率只是描述的一种可能性。
4、数据类型
无序变量:不能比较大小。
有序变量:有程度的递进。 定比变量:有倍数关系,例存款。 定距变量:变量取值距离相等,例温度。
5、相关关系与因果关系
因果关系:A发生就会导致B发生或B发生会导致A发生,事件之间有因果关系。有原因,有结果
相关关系:
第二章:样本魅影
样本,在统计学中的定义是从总体抽取部分来作为研究对象来反映总体的性质。在大数据处理中,虽然样本概念淡化但是对样本的方法依旧适用。
知识点: 1、随机样本、方便样本和自愿回应样本
随机样本:来自总体,能正确反映总体情况
方便样本:出于方便性的原因选取的样本
自愿回应样本:指通过来信来电的方式收集的民情民意。
方便样本和自愿回应样本这两种方式取得的样本是有偏差的,从中得到的结论很难严格推广到总体。
注:样本的好坏,是决定性因素
2、简单随机抽样
简单随机抽样是指从总体N个元素中任意抽取n个元素作为样本,使每个可能的样本被抽中的概率相等的一种抽样方式。
简单随机抽样具有如下特点:
总体个数N是有限的。
样本数”不大于总体个数N。
简单随机抽样是不放回抽样。
总体中每个个体被选入样本的可能性均为n/N。
3、抽样中存在的错误风险
抽样误差:随机性带来的误差
非抽样误差:4、不回应
不回应是指不能够从样本中的受访者取得数据。大多数不回应发生的原因大致分为两种:
第一种原因是联系不到受访者或者受访者回答问题时疏漏。
第二种原因是受访者主观上拒不合作从而导致数据遗漏。
5、响应误差
响应误差是相对应不响应误差的一个概念。它是指在问卷调査的过程中,因为问题在问卷中所处的位置、提问问题的方式和访问员的个人影响而引入的误差。问题措辞的不妥是引入响应误差的一个常见因素。
6、有效性和可靠性
有效性和可靠性是衡量问卷中问题质量的两大重要指标。有效性,测量的是精度,衡量问题是否成功地测量了它原来想要测量的东西;可靠性,测量的是一致性(Consistency),衡量的是,如果对同一个问题进行重复测量,其结果间是否能够保持一致性。
7、大数据4V特征
第三章:描述数据
在数据中有许多描述统计量来描述数据的大体情况,而选择一个较好的统计量可以较准确的反映数据特征。反之则会产生误导。
知识点:
1、均值
均值有很多不同的算法,比较常见的是‘样本和/样本个数’。比较适合描述无极端值和数据分布较均匀的数据。
2、分位数
分位数表示数据由小到大排序,所在的位置。有中位数、4分位数等。比较适合描述数据分布不均匀的情况。
3、标准差、标准误
标准差:描述数据的波动,全称标准偏差。
标准误:标准误是多个样本均值的标准差,用来衡量抽样误差的大小。
4、数据可视化
用图表等办法反映数据特点,常用饼图、条形图、折线图、频率直方图、散点图。在网络上常用的有地图云、热力学地图、按照具体需求设计。
第四章:正态分布
正态分布可以说是数理统计中的最重要的一个分布。在回归分析中有随机误差项,随机误差都是服从正态分布。书中称正态分布为正态女神一点都没错。
知识点:
1、概率分布
随机变量的概率分布有离散型和连续性两种。
、2、期望
概率分布中期望获得的收益,也叫均值。下面是离散型和连续型的公式
3、方差
方差用来衡量随机变量和它的期望之间的偏离程度。当数据比较分散时,各个样本点偏离期望的程度就越大,数据波动越大,方差也就越大;当数据分布比较集中时,数据的波动越小,方差就越小。方差的常用公式如下:
4、大数定律
在重复次数足够多的条件下,随机事件往往呈现几乎必然的统计特性。大数定律是以确切的数学形式表达了大量重复出现的随机现象的统计规律性,即频率的稳定性和平均结果的稳定性。
5、正态分布
概率分布函数:6、中心极限定理
当独立的随机变量个数不断增加时,其和的分布趋于正态分布。这就是中心极限定理的大意。中心极限定理中最重要的定理之一是林德贝尔格(Lindeberg)——勒维(Levy)中心极限定理: