《Hadoop数据分析》高清带目录电子书PDF下载

下载地址:

http://pan.ishare1.cn/file105/2973105-427716497

内容简介· · · · · ·

通过提供分布式数据存储和并行计算框架,Hadoop已经从一个集群计算的抽象演化成了一个大数据的操作系统。本书旨在通过以可读且直观的方式提供集群计算和分析的概览,为数据科学家深入了解特定主题领域铺平道路,从数据科学家的视角介绍Hadoop集群计算和分析。本书分为两大部分,第一部分从非常高的层次介绍分布式计算,讨论如何在集群上运行计算;第二部分则重点关注数据科学家应该了解的工具和技术,意在为各种分析和大规模数据管理提供动力。

作者简介· · · · · ·

Benjamin Bengfort

数据科学家,目前正在马里兰大学攻读博士学位,方向为机器学习和分布式计算;熟悉自然语言处理、Python数据科学、Hadoop和Spark分析等。

Jenny Kim

经验丰富的大数据工程师,不仅进行商业软件的开发,在学术界也有所建树,在海量数据、机器学习以及生产和研究环境的Hadoop实施方面有深入研究。目前就职于Cloudera的Hue团队。

目录· · · · · ·

前言  ix

第一部分 分布式计算入门

第1章 数据产品时代  2

1.1 什么是数据产品  2

1.2 使用Hadoop构建大规模数据产品  4

1.2.1 利用大型数据集  4

1.2.2 数据产品中的Hadoop  5

1.3 数据科学流水线和Hadoop生态系统  6

1.4 小结  8

第2章 大数据操作系统  9

2.1 基本概念  10

2.2 Hadoop架构  11

2.2.1 Hadoop集群  12

2.2.2 HDFS  14

2.2.3 YARN  15

2.3 使用分布式文件系统  16

2.3.1 基本的文件系统操作  16

2.3.2 HDFS文件权限  18

2.3.3 其他HDFS接口  19

2.4 使用分布式计算  20

2.4.1 MapReduce:函数式编程模型  20

2.4.2 MapReduce:集群上的实现  22

2.4.3 不止一个MapReduce:作业链  27

2.5 向YARN 提交MapReduce 作业  28

2.6 小结  30

第3章 Python 框架和Hadoop Streaming  31

3.1 Hadoop Streaming  32

3.1.1 使用Streaming在CSV 数据上运行计算  34

3.1.2 执行Streaming作业  38

3.2 Python 的MapReduce框架  39

3.2.1 短语计数  42

3.2.2 其他框架  45

3.3 MapReduce进阶  46

3.3.1 combiner  46

3.3.2 partitioner  47

3.3.3 作业链  47

3.4 小结  50

第4章 Spark内存计算  52

4.1 Spark基础  53

4.1.1 Spark栈  54

4.1.2 RDD  55

4.1.3 使用RDD 编程  56

4.2 基于PySpark的交互性Spark  59

4.3 编写Spark应用程序  61

4.4 小结  67

第5章 分布式分析和模式  69

5.1 键计算  70

5.1.1 复合键  71

5.1.2 键空间模式  74

5.1.3 pair与stripe  78

5.2 设计模式  80

5.2.1 概要  81

5.2.2 索引  85

5.2.3 过滤  90

5.3 迈向最后一英里分析  95

5.3.1 模型拟合  96

5.3.2 模型验证  97

5.4 小结  98

第二部分 大数据科学的工作流和工具

第6章 数据挖掘和数据仓  102

6.1 Hive 结构化数据查询  103

6.1.1 Hive 命令行接口(CLI)  103

6.1.2 Hive 查询语言  104

6.1.3 Hive 数据分析  108

6.2 HBase  113

6.2.1 NoSQL 与列式数据库  114

6.2.2 HBase 实时分析  116

6.3 小结  122

第7章 数据采集  123

7.1 使用Sqoop 导入关系数据  124

7.1.1 从MySQL 导入HDFS  124

7.1.2 从MySQL 导入Hive  126

7.1.3 从MySQL 导入HBase  128

7.2 使用Flume 获取流式数据  130

7.2.1 Flume 数据流  130

7.2.2 使用Flume 获取产品印象数据  133

7.3 小结  136

第8章 使用高级API 进行分析  137

8.1 Pig  137

8.1.1 Pig Latin  138

8.1.2 数据类型  142

8.1.3 关系运算符  142

8.1.4 用户定义函数  143

8.1.5 Pig 小结  144

8.2 Spark 高级API  144

8.2.1 Spark SQL  146

8.2.2 DataFrame  148

8.3 小结  153

第9章 机器学习  154

9.1 使用Spark 进行可扩展的机器学习  154

9.1.1 协同过滤  156

9.1.2 分类  161

9.1.3 聚类  163

9.2 小结  166

第10章 总结:分布式数据科学实战  167

10.1 数据产品生命周期  168

10.1.1 数据湖泊  169

10.1.2 数据采集  171

10.1.3 计算数据存储  172

10.2 机器学习生命周期  173

10.3 小结  175

附录A 创建Hadoop 伪分布式开发环境  176

附录B 安装Hadoop 生态系统产品  184

术语表  193

关于作者  211

关于封面  211

下载地址:

Hadoop数据分析@ishare1.cn.pdf:http://pan.ishare1.cn/file/2973105-427716497

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,744评论 6 502
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,505评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,105评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,242评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,269评论 6 389
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,215评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,096评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,939评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,354评论 1 311
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,573评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,745评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,448评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,048评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,683评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,838评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,776评论 2 369
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,652评论 2 354

推荐阅读更多精彩内容