大数据时代下的统计学

大数据时代下的统计学阅读笔记

这本书前四章主要讲了统计的一部分基本概念,我将分章节来进行描述。

第一章:大数据时代下的统计学

什么是统计学?统计学就是如何高效、准确地分析所得数据,并把它转化成比数据本身更有用的知识。其实再我看来数据科学与统计的关联非常大,因为数据科学与统计都是从数据中挖掘有效的信息并有效使用。

知识点: 1、随机性

随机性贯穿了统计学,无论是在抽取样本、计算概率、参数估计等都要满足随机性。例如随机事件、样本从总体中随机抽取等。

2、概率

概率的取值在(0,1),反映了某件事发生的可能性大小。但是在发生前我们都不知道这件事的结果,只是说一种可能性。

3、小概率不等于不发生

概率=0的事件不是不可能发生,只是发生的可能性太小了。概率=0与不可能事件不相等。同理,大概率事件不是一定发生。因为概率只是描述的一种可能性。

4、数据类型

无序变量:不能比较大小。

有序变量:有程度的递进。 定比变量:有倍数关系,例存款。 定距变量:变量取值距离相等,例温度。

数据类型案例.png

5、相关关系与因果关系

因果关系:A发生就会导致B发生或B发生会导致A发生,事件之间有因果关系。有原因,有结果

相关关系:

相关关系.png

第二章:样本魅影

样本,在统计学中的定义是从总体抽取部分来作为研究对象来反映总体的性质。在大数据处理中,虽然样本概念淡化但是对样本的方法依旧适用。

知识点: 1、随机样本、方便样本和自愿回应样本

随机样本:来自总体,能正确反映总体情况

方便样本:出于方便性的原因选取的样本

自愿回应样本:指通过来信来电的方式收集的民情民意。

方便样本和自愿回应样本这两种方式取得的样本是有偏差的,从中得到的结论很难严格推广到总体。

注:样本的好坏,是决定性因素

2、简单随机抽样

简单随机抽样是指从总体N个元素中任意抽取n个元素作为样本,使每个可能的样本被抽中的概率相等的一种抽样方式。

简单随机抽样具有如下特点:

总体个数N是有限的。

样本数”不大于总体个数N。

简单随机抽样是不放回抽样。

总体中每个个体被选入样本的可能性均为n/N。


抽样.png

3、抽样中存在的错误风险

抽样误差:随机性带来的误差

非抽样误差:
抽样误差.png

4、不回应

不回应是指不能够从样本中的受访者取得数据。大多数不回应发生的原因大致分为两种:

第一种原因是联系不到受访者或者受访者回答问题时疏漏。

第二种原因是受访者主观上拒不合作从而导致数据遗漏。

5、响应误差

响应误差是相对应不响应误差的一个概念。它是指在问卷调査的过程中,因为问题在问卷中所处的位置、提问问题的方式和访问员的个人影响而引入的误差。问题措辞的不妥是引入响应误差的一个常见因素。

6、有效性和可靠性

有效性和可靠性是衡量问卷中问题质量的两大重要指标。有效性,测量的是精度,衡量问题是否成功地测量了它原来想要测量的东西;可靠性,测量的是一致性(Consistency),衡量的是,如果对同一个问题进行重复测量,其结果间是否能够保持一致性。

有效性与可靠性.png

7、大数据4V特征

big data4V特征.png

第三章:描述数据

在数据中有许多描述统计量来描述数据的大体情况,而选择一个较好的统计量可以较准确的反映数据特征。反之则会产生误导。

知识点:

1、均值

均值有很多不同的算法,比较常见的是‘样本和/样本个数’。比较适合描述无极端值和数据分布较均匀的数据。


均值算法.png

2、分位数

分位数表示数据由小到大排序,所在的位置。有中位数、4分位数等。比较适合描述数据分布不均匀的情况。

3、标准差、标准误

标准差:描述数据的波动,全称标准偏差。

标准差.png

标准误:标准误是多个样本均值的标准差,用来衡量抽样误差的大小。

标准误.png

4、数据可视化

用图表等办法反映数据特点,常用饼图、条形图、折线图、频率直方图、散点图。在网络上常用的有地图云、热力学地图、按照具体需求设计。

第四章:正态分布

正态分布可以说是数理统计中的最重要的一个分布。在回归分析中有随机误差项,随机误差都是服从正态分布。书中称正态分布为正态女神一点都没错。

知识点:

1、概率分布

随机变量的概率分布有离散型和连续性两种。

概率分布.png

2、期望

概率分布中期望获得的收益,也叫均值。下面是离散型和连续型的公式

期望.png
期望性质.png

3、方差

方差用来衡量随机变量和它的期望之间的偏离程度。当数据比较分散时,各个样本点偏离期望的程度就越大,数据波动越大,方差也就越大;当数据分布比较集中时,数据的波动越小,方差就越小。方差的常用公式如下:

方差.png

4、大数定律

在重复次数足够多的条件下,随机事件往往呈现几乎必然的统计特性。大数定律是以确切的数学形式表达了大量重复出现的随机现象的统计规律性,即频率的稳定性和平均结果的稳定性。

大数定律.png

5、正态分布

概率分布函数:
正态.png
正态性质.png

6、中心极限定理

当独立的随机变量个数不断增加时,其和的分布趋于正态分布。这就是中心极限定理的大意。中心极限定理中最重要的定理之一是林德贝尔格(Lindeberg)——勒维(Levy)中心极限定理:

中心极限.png
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 210,914评论 6 490
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 89,935评论 2 383
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,531评论 0 345
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,309评论 1 282
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,381评论 5 384
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,730评论 1 289
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,882评论 3 404
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,643评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,095评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,448评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,566评论 1 339
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,253评论 4 328
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,829评论 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,715评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,945评论 1 264
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,248评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,440评论 2 348

推荐阅读更多精彩内容