第1章 程序员的统计思维

这本书讨论如何将数据转换为知识。 数据是廉价的( 至少相对而言如此), 但知识却异常宝贵。

书中对三门相互关联的学科进行介绍:

  • 概率论
    主要研究随机事件。 人们对某些事件发生的可能性高低一般都有直观的认识, 所以未经特殊训练就会使用“ 可能”、“ 不可能” 之类的词汇。 但本书会介绍如何量化这种可能性
  • 统计学
    统计学旨在根据数据样本推测总情况。 大部分统计分析都基于概率, 所以这两方面的内容通常兼而有之。
  • 计算
    量化分析的最佳工具。 计算机是处理统计量的常用工具。 此外, 计算实验还有助于理解概率论和统计学中的概念。

在日常生活中,我们经常会依据自己的个人经历得到一些经验之谈,这些经验之谈会因为观察的数量太少、选择偏差、确认偏差、不准确等因素存在种种不足。

为解决这种不足,本书运用以下统计学手段:

  • 收集数据
    量化分析的最佳工具。 计算机是处理统计量的常用工具。 此外, 计算实验还有助于理解概率论和统计学中的概念。
  • 描述性统计
    计算能总结数据的统计量, 并评测各种数据可视化的方法。
  • 探索性数据分析
    寻找模式、 差异和其他能解答我们问题的特征。 同时, 我们会检查不一致性, 并确认其局限性。
  • 假设检验
    在发现明显的影响时( 比如两个族群间的差异), 我们需要评判这种影响是否真实, 也就是说是否是因为随机因素造成的。
  • 估计
    我们会用样本数据推断全部人口的特征。

术语

  • 经验之谈(anecdotal evidence)
    个人随意收集的证据, 而不是通过精心设计并经过研究得到的。
  • 直观效应(apparent effect)
    表示发生了某种有意思的事情的度量或汇总统计量。
  • 人为(artifact)
    由于偏差、 测量错误或其他错误导致的直观效应。
  • 队列(cohort)
    一组被调查者。
  • 横断面研究( cross-sectional study)
    收集群体在特定时间点的数据的研究。
  • 字段( field)
    数据库中组成记录的变量名称。
  • 纵贯研究( longitudinal study)
    跟踪群体, 随着时间推移对同一组人反复采集数据的研究。
  • 过采样( oversampling)
    为了避免样本量过少, 而增加某个子群体代表的数量。
  • 总体( population)
    要研究的一组事物, 通常是一群人, 但这个术语也可用于动物、 蔬菜和矿产。
  • 原始数据( raw data)
    未经或只经过很少的检查、 计算或解读而采集和重编码的值。
  • 重编码( recode)
    通过对原始数据进行计算或是其他逻辑处理得到的值。
  • 记录( record)
    数据库中关于一个人或其他对象的信息的集合。
  • 代表性( representative)
    如果人群中的每个成员都有同等的机会进入样本, 那么这个样本就具有代表性。
  • 被调查者( respondent)
    参与调查的人。
  • 样本( sample)
    总体的一个子集, 用于收集数据。
  • 统计显著( statistically significant)
    若一个直观效应不太可能是由随机因素引起的, 就是统计显著的。
  • 汇总统计量( summary statistic)
    通过计算将一个数据集归结到一个数字( 或者是少量的几个数字),而这个数字能表示数据的某些特点。
  • 表( table)
    数据库中若干记录的集合。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,163评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,301评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,089评论 0 352
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,093评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,110评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,079评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,005评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,840评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,278评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,497评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,667评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,394评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,980评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,628评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,649评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,548评论 2 352

推荐阅读更多精彩内容