1.什么叫大数据

在课程前面声明:

首先要说的是,本课程是根据
本课程专注于HADOOP运维相关知识,但也涉及到简单开发,主要目的是能够帮助运维人员快速上手hadoop运维,并解决相当一部分问题,请专业大数据开发人员不要误入歧途
下面我们会用几个课时来介绍hadoop的原理知识,为了保证知识的可信度和尽量减少因为个人理解造成的误区,我们原理部分的讲义几乎全部来自hadoop官网及hadoop权威指南这本书
Hadoop原理对于初次接触hadoop的工程师来说尤为重要,原理是枯燥的,但往往枯燥的才是不经过渲染的精华,但我仍然会尽量通过使用恰当的例子和画图的方式来帮助大家理解,本教程中自己创作的图片超过50张

同时博主正在做500台Hadoop集群的搭建工作,我们会拿出100台来为大家展示大规模CDH集群的搭建及维护细节,详见后面文章

大数据其实我们可以简单的理解为大量数据
为什么会有大数据诞生呢?因为之前处理和存储数据的方式只适用于少量数据,当数据规模增大时,之前的方式及工具就会出现各种问题,甚至完全无法处理,那么在这个基础上我们出现了大规模数据的存储+分析+计算的工具→HADOOP

我们举个例子:
你家是开小卖部的,那你记账和总账就使用一根笔和一个笔记本就好了
但是如果你家开了一个小超市,那就需要使用计算器了
但是如果你家开了个连锁超市,那就需要使用收银系统了
对数据来说也是一样:
如果你写了一句话,我要求你统计下里面有多少句号,你可能数数就行了
如果你写了一个作文,我要求你统计下这本书里有多少句号,你可能就得多找两个人了
如果是四大名著呢?
存储 && 分析
Hadoop就是为了解决 大量数据的存储及分析的问题

数据结构分类

在详细介绍大数据之前,我们来说一下我们数字世界的数据种类:
数据种类分为:

  • 结构化数据:mysql
    mysql在数据库容量达到T级别,就会初显瓶颈,随着数据量增大,问题会越 来越多,这也从一个侧面体现了DBA的价值

  • 半结构化数据:
    例如电子表格,它在结构上是由单元格组成的网格,但是每个单元格内部可以保存任意格式的数据

  • 非结构化数据:
    例如日志信息(纯文本)、图片等

我们会碰到好多半结构化数据和非结构化数据,这些数据存储是个问题,例如日志,你要如何存储它?你不能把它存储在mysql中吧,我们现在有ELK,可以把日志通过索引的方式存储。
但是其他的非结构化数据与半结构化数据呢?
如何把这些数据存储下来,并且能够完成高效的按需检索功能呢?

如何存储与分析大量非结构化与半结构化数据呢?

在回答这个问题之前,我们给这个问题增加一个前置条件
这里的数据大小我们以PB为单位, 1PB=1000TB=1000000GB,你以为很多了吗??
我们来看一个数据,数据来源是《HADOOP权威指南》
2006年数字世界项目统计得出全球数据总量为0.18ZB,并预测2011年达到1.8ZB(相当于10亿TB)
相当于每个人都产生了1TB的数据容量
关键问题是现在是2017年。。。。。what the fuck
现在我让你来分析这个等级的数据,告诉我你用什么工具??
mysql??ELK??

再假如说mysql与ELK的软件性能没有问题,但是你用什么机器进行分析呢?
硬盘的限制: 1TB的硬盘目前是主流,但其数据传输速度约为100MB/s,
读完整个硬盘数据至少需要花2.5小时,写入就别提了

hadoop思想

分布式存储与并行读取的思想(HDFS)

一个很简单的提高读取速度的方式就是并行从多个硬盘上读取数据
试想,如果我们有100个硬盘,每个硬盘存储1%的数据,并行读取,那么不到2分钟就读取完了所有数据
这就像我们平常所说的raid0 一样

但是仅使用硬盘容量的1%是不是很浪费啊,但是我们可以存储100个不同类型的1T大小的数据,实现共享硬盘的读取,每个类型的数据我们称为数据集

虽然如此,但要对多个硬盘的数据并行读取,还有更多的问题需要解决

第一个问题:
硬件故障:按照上面的理论,我把1T数据分散在100块硬盘上,但是其中一块硬盘故障了怎么办呢?
为了解决这个问题,我们最常用的解决办法就是复制(replication),系统保存数据的副本,一旦有故障
就会使用另外的副本
比如说kafka、raid、ELK,这个在我发布的其他课程中都可以见到
hadoop 文件系统(HDFS hadoop Distributed FIleSystem)也是这一类的

第二个问题:
第二类问题是大多数分析任务是需要以某种方式结合大部分数据来共同完成分析,即从一块硬盘读取的数据
需要与从另外99块硬盘中读取的数据结合使用

mapreduce思想

按照上面的说法一块硬盘读取的数据需要与从另外99块硬盘中读取的数据结合使用之后才可以用来分析。
那么你分析下上面方式的痛点在哪里呢???
首先我们用好多台服务器来存储数据,HDFS又将数据分成不同的块,存储的不同的机器上,我们的服务器在机房内是按照机柜进行分隔的,如果我做一个简单运算都需要调用其他机柜服务器的数据,那么网络带宽是最大瓶颈。

网络带宽是数据中心最宝贵的资源(到处复制数据很容易耗尽网络带宽),
HADOOP 将mapreduce的输入数据划分成等长的小数据块,称为输入分片(input split),HADOOP 为每个分片构建一个map任务,并由该任务来运行用户自定义的map函数

Hadoop在存储有输入数据(HDFS中的数据)的节点上运行map任务,可以获得最佳性能,这就是我们所说的“”数据本地优化“”,(data locality optimization),因此它无需使用宝贵的集群带宽资源

mapreduce 尽量在计算节点上存储数据,以实现数据的本地快读访问,数据本地化(data locality)特性是mapreduce的核心特性,并因此而获得很好的性能。
mapreduce 提出一个编程模型,该模型抽象出这些硬盘读写问题,并将其转化为一个数据集的计算,这样的计算由map和reduce两部分组成

mapreduce形象举例
如果上面的文字比较晦涩难懂,希望下面的例子能够帮助你:
我们要数图书馆中的所有书。你数1号书架,我数2号书架。这就是“Map”。我们人越多,数书就更快。
现在我们到一起,把所有人的统计数加在一起。这就是“Reduce”。

总结
总而言之,hadoop为我们提供了一个可靠的共享存储及分析系统,HDFS实现了数据的存储,Mapreduce实现了数据的分析和处理,虽然hadoop还有其他功能,但HDFS与MAPREDUCE是它的核心价值

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,123评论 6 490
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,031评论 2 384
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,723评论 0 345
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,357评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,412评论 5 384
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,760评论 1 289
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,904评论 3 405
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,672评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,118评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,456评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,599评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,264评论 4 328
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,857评论 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,731评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,956评论 1 264
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,286评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,465评论 2 348

推荐阅读更多精彩内容