《深入浅出数据分析》，轻松入门数据分析！

如今，数据分析在各行各业中都扮演着非常重要的角色。工作的需要使得很多小白开始自学数据分析了！其实数据分析不像很多人想的那样高深莫测，留心工作，处处有数据，处处有分析！

如果你是想要入门数据分析的小白，很推荐豆瓣高分入门书籍《深入浅出数据分析》。这本书用职场中常见的场景，来表达什么是数据分析，如何做分析，以及好用的分析工具。这本书对小白非常友好，简单易懂，大多是用插画、图表等形式表达要点。

二刷这本书，深受启发，梳理了这本书的精要内容，在这里分享给大家，希望大家能快速入门！

第1章：数据分析引言-分解数据

数据分析流程图

1. 数据分析流程

1）确定：通过与客户沟通，确定问题

2）分解：将问题划分为可管理、可解决的组块

3）评估：评估分解组块的关键就是比较

4）决策：将分析形成报表，供制定决策

2. 反思心智模型，开始新一轮分析

分析过程中的错误或不完整信息，会导致决策失误。而这些信息是源于个人对外界的假设和确信的观点，也就是心智模型。因此，需要尽量明确你的心智模型，仔细斟酌各类影响因素。更重要的是，要基于数据得出观点，而不是个人猜想。在进一步明确数据和信息后，可以按照上述的数据分析流程开始新一轮的分析啦！

第2章：实验-检验你的理论

咖啡销量下滑原因及应对策略分析

1. 咖啡销量下滑原因分析

1）提出问题：在过去半年里，星巴仕销量持续下降，原因是什么？

2）数据来源：市场客户调查，邀请客户对影响销量的五个因素（选址、咖啡温度、员工热情、咖啡价值、偏爱去处）进行打分。

3）数据分析：利用比较法得出，咖啡价值得分一落千丈！

4）得出结论：咖啡价值的下降导致销量下降。

问题来了！Soho区是一个富人区，区经理认为这里没有人认为星巴仕缺乏价值。哪里出现了问题？是观察分析法中的混杂因素!

混杂因素就是研究对象的个人差异，它们不是你试图进行比较的因素，但会导致分析结果的敏感性变差。本例中的混杂因素是店址。也就说，不同店址客户对五因素的评分倾向是不同的，比如Soho富人区的咖啡价值得分明显高于其他区域。因此，要分区域来重新审视数据，发现东岸区的价值感得分最低，Soho区则一切正常，其他区域在一定范围内波动。现在最重要的问题是，采取哪种策略能够有效提高销量？记得采用控制变量法，排除混杂因素！

2. 咖啡销量下滑策略分析

1）目的：验证哪种策略最有效，策略一为降价，策略二为游说顾客“星巴仕很有价值”；

2）分组：将大的地理区域分成小的地理区域，随机将这些微区域分成控制组和实验组；

3）实验：控制组维持现状一个月，实验组1降价一个月，实验组2游说顾客一个月；

4）结果：控制组与实验组1的营业收入持平，实验组2的收入立即上升。

第3章：最优化-寻找最大值

1. 利润最大化问题

我们的橡胶够生产500只橡皮鸭或400条橡皮鱼，我们的时间够用来生产400只橡皮鸭或300条橡皮鱼。如果想让产品在下个月上架销售，我们的产量都不会高于400只橡皮鸭和300条橡皮鱼。每只橡皮鸭的利润是5美元，每条橡皮鱼的利润是4美元，求如何安排橡皮鸭和橡皮鱼的产量才能使得利润最高？

解：设橡皮鸭数量为X只，橡皮鱼数量为Y条

目标函数： $Z=5X+4Y$

约束条件： $X≤400,Y≤300, 0.8X+Y≤400$

求解工具：Excel的求解器（solver）

2. 按照分析目标校正假设

上述的利润最大化问题分析看似完整，但实际利润却跌穿地板！由于其约束条件对实际情况进行了简化，当缺失某一个重要的假设条件，分析结果就可能毁掉。而上述问题恰好忽略了人们的需求偏好，导致分析结果不尽人意。

现在，观察近年来橡皮鸭和橡皮鱼的销量情况，发现橡皮鱼的销量一般不超过50条。在完善约束条件后，重新求得最优解。

第4章：数据图形化-图形让你更精明

1) 画图前提：准备数据，若数据过于庞杂，只须记住目标，目光停留在和目标有关的数据上，无视其他。

2) 画图目的：数据图形化的根本在于正确比较，其意义在于图片中隐含的数据，而不是炫目的设计。

3) 画图进阶：图形多元化，优秀的图形都是多元图形，即对3个以上的变量进行比较。

4) 画图工具：R

第5章：假设检验-假设并非如此

1. 问题

电肤公司是一家手机“皮肤”制造商。手机巨头Podphone公司即将发布一款手机，时间待定。电肤公司必须在手机发布前的一个月开始生产手机皮肤，才能赶上手机销售的第一波。当前的任务是电肤公司何时生产新手机皮肤？

2. 搜集证据

通过搜集产品发布信息，梳理这些信息中体现的变量关系，分为正相关和负相关关系。

信息中的变量关系

3. 提出假设

新产品发布假设

4. 假设检验

1）假设检验的核心是证伪，即剔除无法证实的假设，排除错误假设。

根据资料可排除1和假设5

2）对于假设2-4，借助诊断法找出否定性最小的假设，判定哪个假设最强。

基于诊断法的假设判定

得出假设3为最强假设

3）新证据来了：Podphone公司召开了新手机打样庆祝会，新证据使得假设2变为最强假设！

4）根据最新分析结果采取行动吧！

第6章：贝叶斯统计-穿越第一关

1. 条件概率与贝叶斯规则—蜥蜴流感病毒案例

研究表明总人口中有1%的人患有蜥蜴流感。已知若某人已患蜥蜴流感，试验结果为阳性的概率为90%，若某人未患蜥蜴流感，试验结果为阳性的概率为9%。假定以1000人为基础进行计算：

蜥蜴流感病毒案例分析

2. 回忆贝叶斯公式： $P(B_i/A)=P(B_i)P(A/B_i)/\sum\nolimits_{j=1}^n P(B_j )P(A/B_j)$

这个公式看似复杂，但在实际应用中，n一般为2，也就是说把B划分为正反两面，情况就简化很多了。另一方面，要熟记一个公式： $P(B/A)=P(AB)/P(A)$ ,这个条件概率公式简单好记，应用广泛，且有助于理解贝叶斯公式！

条件概率形象化

第7章：主观概率-信念数字化

信念数字化与图形化

1. 问题

投资公司的分析师们对投资计划的分歧很大，分歧主要体现在六个方面：（1）俄罗斯下一季是否会补贴石油业？2）俄罗斯是否会收购欧航航空公司？3）越南今年是否会减税？4）越南今年是否会鼓励外国投资？5）印尼旅游业今年是否会翻身？6）印尼政府是否会投资生态旅游？

分析师们对这六个方面的判断不同，众说纷纭，争论越发激烈。他们对这六个假设的用词有：可能，极不可能，可能性更大，有可能，可能不，不可能。。。如何让概率用词更精确？分析师们的观点是否真的差异巨大？

2. 用主观概率体现信念

主观概率是指个人对某事的确认程度，一般用于预测孤立事件但缺乏可靠数据的情况下。现在，需要将各种说法转换为数据！

分析师们的猜想数据化

接着，可以用图形（如散点图）直观表现每一种说法的概率倾向。同时，可以用“标准偏差”分析数据点与平均值的差距。主观概率偏离平均值的标准偏差越大，分析师们在假设成立的可能性方面的分歧越大。

3. 新的消息改变初始概率

最新消息：俄罗斯宣布售出所有油田，称对商业失去了信心。这条新闻可能会导致投资价值大幅缩水，降低假设一的主观概率，另一方面，这个新闻可能只是俄罗斯的一种策略，实际上他们并不打算出售油田。接下来，要确定在得到这条消息的前提下，分析师们对假设一的概率会有什么变化？

贝叶斯规则是修正主观概率的好办法：H代表俄罗斯会（不会）补贴石油业，E代表新的证据。则：

$P(H/E)=P(H)P(E/H)/[(P(H)P(E/H)+P(-H)P(E/-H)]$

拿到新的数据后，重新分析~

第8章：启发法-凭人类的天性做分析

1. 问题

邋遢集是由数据邦市市政府资助的一个非盈利团体，他们进行公开宣传，劝说人们不要乱扔垃圾。他们把最近的工作结果汇报给了市政府，但市政府需要知道垃圾量减少了多少，否则就会削减资金！

2．难题

难题是垃圾量的减少无法定量计算出来，没有一个统一的散乱垃圾计量模型。垃圾的定量计算看似走不通。

3. 方法

基于启发法的发散式思维

人们以极快速度作出的决定或不凭借任何数据作出的决定，往往靠的是直觉，直觉一般看到的只有一个选项。通过发散式思维的思考，即启发法，可以得出多个选项。现在用启发法确定用哪些变量分析能够更全面地描述邋遢集的绩效。

基于启发法的邋遢集绩效描述变量确定

站在市议员的角度考虑他们会如何评估邋遢集的工作，用启发法构思如下：

基于启发法的工作评估

在利用启发法确定重要因素后，搜集数据，包括环卫工人问卷、公众问卷等。给市议员一个定量的报告和回复。

第9-11章：加薪要求分析

第9章到11章都是围绕加薪问题展开地。第9章基于源数据来分析主动提出加薪要求是否有利于提高加薪幅度；第10章利用散点图和回归方程分析了提出多高的加薪幅度比较合适；第11章则对回归分析的误差和改善提出了建议。三章之间的关系如思维图所示，思维图下面则是对每一章重点的提炼。

加薪要求分析

第九章：直方图-数字的形状

1. 问题描述

年底了，星巴仕的员工希望加薪，但他们不确定是否应该主动提出加薪要求，想要通过研究进行加薪结果预测。现在手头有历年加薪记录的数据，包括员工的编号、得到的加薪幅度、性别、年份、是否提出过加薪等字段。

2. 数据处理

1）提取并汇总数据。即从总数据中提取信息，将数据分解成易于管理的较小数据块。在该例中，得出加薪幅度、性别、年份等有用字段。

2）数据图形化。直方图是一种功能强大的图形，它可以显示出数据点在数值范围内的分布情况。在该例中，直方图显示出了获得每种加薪幅度的有多少人。

3）直方图描绘工具。用R绘制加薪幅度的频数分布直方图，分析了不同年份的加薪幅度、不同性别的加薪幅度、是否主动提出过加薪要求下的加薪幅度等情况。

4）得出结论。对加薪数据的不同子集进行直方图分析后，看得出获得大幅度加薪全靠提要求。

第十章：回归-预测

1. 问题

在确定了要提出加薪之后，下一个关键问题是该提出多少的加薪幅度呢？员工需要一个“加薪计算器”来预测加薪幅度。

2. 基于散点图的回归分析

每一个员工的要求加薪幅度和实际加薪幅度是一个数据点，这些数据点可以画出散点图。在散点图中用回归线（最准确地贯穿数据点的一条线）来表现要求加薪与实际加薪之间的关系，并得出回归方程： $Y=2.3+0.7X$ ，其中，X代表要求加薪幅度，Y代表实际加薪幅度。

3. 基于回归方程的预测

上述的回归方程可以预测人们的实际加薪幅度，“加薪计算器”设计完成！

第十一章：误差-合理误差

1. 问题

员工根据回归方程的预测向老板提出加薪要求，但员工们收到的反馈却差异很大。A员工要求5%，结果加了10%；B员工要求8%，结果加了7%；C员工要求25%，结果加了0%。这是哪里出现了问题？回归方程是否靠谱？

2. 原因分析

不管多优秀的预测模型，都会存在偏差，我们把这种实际结果与预测结果之间的偏差叫做机会误差，又称为残差。而对残差的分析是优秀的统计模型的核心。首先我们分析残差存在的原因：

1）源数据不全面：我们是从源数据得出回归方程，源数据的“要求加薪幅度”字段并没有超过22%的例子。因此，该回归方程也不适用于要求加薪幅度超过22%的员工。问题描述里的C员工要求加薪幅度为25%，显然超出了模型的预测范围。

2）回归线的贴合程度差异：在加薪幅度低于10%的时候，该回归线与数据的贴合程度很高。而加薪幅度在10%到22%的区间，该回归线便与数据点有较大的偏移。因此，对于要求加薪幅度在10%以上的员工，该回归方程的预测准确度会降低。

3. 优化方法

1）定量地指出误差：我们需要一个统计值来体现数据点与回归线的平均偏移量。均方根误差描述的了回归线周围的分布情况，有了均方根误差，就能告诉客户实际结果与预测结果之间可能有多大差距。通过R计算均方根误差为2.5%，这时可以在回归方程下方备注：该公式只在加薪要求介于0%到22%之间时有效。大部分加薪结果都会落在高于或低于预测结果2.5%的范围内。

2）分割方程来管理误差：由于要求加薪在0%-10%之间的数据与回归线的重合程度较高，而10%以上的数据与回归线的贴合程度很低。可以以10%为分界线，建立两个回归方程，即：当要求加薪幅度低于10%，使用公式1 $（Y=0.8+0.9X）$ ；当要求加薪幅度高于10%，使用公式2 $（Y=7.8+0.3X）$ ,同时注明两个方程的误差范围。

第12章：关系数据库-你能关联么？

杂志销量与文章数量的关系分析

1. 问题描述

《数据邦新闻》杂志社想找出在每一期刊物上刊登文章的最优数量。

2. 问题分析

1）源数据获取：现有四张独立的电子表格，分别是销量（期号和销量）、期数（期号和出版日期）、文章（文章编号、期号、）、作者。他们之间是相互关联的。

2）关联比较对象：我们的目的是对比不同文章数量对销量的影响，因此，再数据库管理软件中，通过“期刊”表将“销量”表与“文章”表关联起来。

3）分析比较对象：利用散点图描述文章数和销量之间的关系。

第13章：整理数据-井然有序

数据管理步骤

这本书是数据分析的入门书籍，没有难懂的技术与理论，而是分析生活中的实际问题，轻松易懂！但若要深入学习数据分析，这恐怕是远远不够的，需要我们在实践中进步了，加油吧！

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 217,406评论 6赞 503
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,732评论 3赞 393
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 163,711评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,380评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,432评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,301评论 1赞 301
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,145评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,008评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,443评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,649评论 3赞 334
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,795评论 1赞 347
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,501评论 5赞 345
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,119评论 3赞 328
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,731评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,865评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,899评论 2赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,724评论 2赞 354

《深入浅出数据分析》，轻松入门数据分析！

第1章：数据分析引言-分解数据

第2章：实验-检验你的理论

第3章：最优化-寻找最大值

第4章：数据图形化-图形让你更精明

第5章：假设检验-假设并非如此

第6章：贝叶斯统计-穿越第一关

第7章：主观概率-信念数字化

第8章：启发法-凭人类的天性做分析

第9-11章：加薪要求分析

第九章：直方图-数字的形状

第十章：回归-预测

第十一章：误差-合理误差

第12章：关系数据库-你能关联么？

第13章：整理数据-井然有序

推荐阅读更多精彩内容