第一层面是理论,理论是认知的必经途径。从大数据的特征定义理解行业对大数据的整体描绘和定性;从商业分析提出企业分析应用的框架来做出更好的决策;大数据行业的各种角色以及拥有的技能,定义了数据科学家的发展方向;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。
第二层面是技术,技术是大数据价值体现的手段和前进的基础。书中分别从云计算、分布式处理技术、可视化技术以及其它新兴技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。
第三层面是实践,实践是大数据的最终价值体现。书中分别从市场营销、金融服务、健康医疗和广告行业来描绘大数据已经展现的美好景象以及即将实现的蓝图。
大数据相关理论
1、特征定义
Edd DumbIl对大数据的定义是:“大到不能使用传统的方法进行处理的数据”,但大数据不仅仅是指数据的“大”,真正的问题是“大数据的可用性”。
业界用三个维度来定义大数据的特征-3V(量Volume,多样Variety,速度Velocity),其中最后一点是大数据分析和传统数据挖掘有着本质的不同。
2、商业分析
提出企业内部应用数据分析框架步骤以更好地帮助企业取得决策效果
1)描述性分析:回答“我们的商业活动中发生了什么”,这种方法利用数据和信息通过对趋势、模式以及明显的异常点的观察来描述最近企业的商业状况。
2)好奇性分析:回答“为什么会发生这样的事”,这是一种通过研究数据来验证/否决商业假设的分析方法。
3)预测性分析:回答“未来会发生什么”,通过数据建模来判定未来发生事件的可能性
4)规范性分析:回答“接下来该做什么”。
3、大数据行业角色
数据科学家技能图:
4、大数据隐私
全球隐私保护7条原则如下:
1)知晓权(透明性):应该通知本人关于所收集信息的目的。
2)选择权:提供机会选择(或放弃)所提供的个人信息是否被使用或如何被使用
3)同意权:在符合知晓权和选择权的情况下才可以向第三方透露个人数据信息
4)安全权:采取措施保护个人信息免受丢失、滥用、未授权获取、泄露、篡改、毁坏的威胁。
5)数据完整性:确保个人信息在最终用途、合理防护方面的可靠性,确保信息精确、完整、无误。
6)可查询:提供本人查询个人信息数据的途径。
7)责任性:企业有责任遵守上述原则,并应确保合规的机制。
大数据相关技术
1、云计算
云计算和大数据的结合可以提供更多基于海量业务数据的创新型服务;通过云计算技术的不断发展降低大数据业务的创新成本。
2、分布式处理
大数据处理代表-Hadoop,它是一个用于存储和处理多元海量数据的开源平台。
Hadoop的构成,Hadoop=HDFS(文件系统)+MapReduce(数据处理)+HBase(数据库) +……Others
3、可视化技术
较与传统报表工具提出了快速BI的概念,通过“自服务手段”并快速呈现动态而直观的方式进行交互式数据探索、研究发现。类似的可视化软件有Tableau、Qlonk Tech。
4、新兴技术
SSD-高性能低延迟的大数据分析处理的主流存储技术
GPU-高密集图形处理的计算分析技术
大数据相关实践
1、市场营销:企业通过大数据分析达到销售活动管理、目标细分市场营销以及市场篮子分析的目的。
2、金融服务:风控是金融服务的核心竞争力,利用大数据建立企业信用风险框架是为了更好的促进最大收益为目标的一种风险管理方法。典型信用风险框架图如下:
3、健康医疗:大数据将确保健康医疗领域从慢性疾病管理到面向个人量身定制化医药的重大革新,会形成从主观经验主义到基于客观数据驱动的新型科学。
4、广告业:大数据改变了广告的商业模式,通过实时测量数据迅速调整策略来提高目标受众的到达率和降低展示频率。