MapReduce、Hbase、HDFS基础知识合集

Hadoop大数据平台,相对于传统数据仓库,有以下优势:

完全分布式,可以采用廉价机器搭建集群,完全可以满足海量数据的存储需求。

弱化数据格式,数据模型和数据存储分离,可以满足对异构数据的分析需求。

其平台有两个重要贡献,一是MapReduce体系,二是HDFS分布式文件系统,奠定了如今Hadoop平台在大数据方面的重要定位,大部分技术都绕不开Hadoop。


1.HDFS

       随着数据量越来越大,在一台机器上已经无法存储所有的数据了,那我们会将这些数据分配到不同的机器来进行存储,但是这就带来一个问题:不方便管理和维护。所以,我们就希望有一个系统可以将这些分布在不同操作服务器上的数据进行统一管理,这就有了分布式文件系统。HDFS是分布式文件系统的其中一种(目前用得最广泛的一种)

       它的重点就是理解它内部是如何实现分布式存储的,一般搭配zookeeper一起使用,具体内部实现详见:什么是HDFS

2.MapReduce

在Hadoop平台下,已经定义好它的流程

MapReduce执行流程

我们只需要对参数进行自定义,当然也可以对清理或者Map等声明函数进行自定义,这是分布式处理数据的一个典范。漫画解释MapReduce

Java主程序运行MapReduce的例子,具体实操流程请详看有关手册文档


3.Hbase

作为大数据平台下使用的一种数据库,它适用于大数据这种多次查询和插入的情况,使用流程如下


Hbase执行流程

用Java操作Hbase教程如下:https://mp.weixin.qq.com/s?__biz=MzI4Njg5MDA5NA==&mid=2247486279&idx=2&sn=e33f05d77e1e4dd971ad80b85433fc8e&chksm=ebd74a46dca0c3507c966f74dd4fd4f3c2ca76151f9904e68e7c8b535c30213c1c5837aafd6b&mpshare=1&scene=1&srcid=&sharer_sharetime=1591155509899&sharer_shareid=354a9808d9e4ef34aa7e07486dbf6510#rd

4.相关指令

在shell下进入Hbase目录,输入start-Hbase.sh启动Hbase

1.status 查看数据库状态

2.version 查看数据库版本

3.create 'member','member_id','address','info'  创建表

4.list\rightarrow describe 'member' 查看表信息

5.disable 'member' \rightarrow alter'member',{NAME=>'member_id',METHOD=>'delete'} \rightarrow enable 'member'  删除列族

6.disable 'temp_table' \rightarrow drop 'temp_table'  删除表

7.put'member','scutshuxue','info:birthday','1987-06-17'  插入记录

8.get 'member','scutshuxue'  获取一个行键的所有信息

9.get 'member','scutshuxue',{COLUMN=>'info:age',TIMESTAMP=>1321586238965}  通过TIMESTAMP来获取数据

10.delete 'member','temp','info:age'  删除指定行键字段

11.count 'member'  查询表中有多少行

12.truncate 'member' 清空表 

在shell下进入Hadoop目录,输入start-all.sh等价于start-dfs.sh + start-yarn.sh启动所有进程

但是一般不推荐使用start-all.sh(因为开源框架中内部命令启动有很多问题)。

1. hdfs dfs –ls [文件目录]       查看指定目录下内容

hdfs dfs -ls -R /   //显式目录结构    

2.   hdfs dfs –cat [file_path]   打开某个已存在的文件

 3、hdfs dfs –put [本地地址] [hadoop目录] 将本地文件存储至hadoop

  4、将hadoop上某个文件down至本地已有目录下

hadoop dfs -get [文件目录] [本地目录]

  5、hdfs  dfs –rm [文件地址] 删除hadoop上指定文件

  6、hdfs dfs –mkdir /user/t  在hadoop指定目录内创建新目录

  7、hdfs dfs  -touchz  /user/new.txt 在hadoop指定目录下新建一个空文件

  8、hdfs dfs –mv  /user/test.txt  /user/ok.txt (将test.txt重命名为ok.txt)将hadoop上某个文件重命名

 9、hdfs dfs –getmerge [新文件目录] 将hadoop指定目录下所有内容保存为一个文件,同时down至本地

10、hadoop job –kill  [job-id] 将正在运行的hadoop作业kill掉

11、安全模式

  (1)退出安全模式

      NameNode在启动时会自动进入安全模式。安全模式是NameNode的一种状态,在这个阶段,文件系统不允许有任何修改。

系统显示Name node in safe mode,说明系统正处于安全模式,这时只需要等待十几秒即可,也可通过下面的命令退出安全模式:/usr/local/hadoop$bin/hadoop dfsadmin -safemode leave

  (2) 进入安全模式

在必要情况下,可以通过以下命令把HDFS置于安全模式:/usr/local/hadoop$bin/hadoop dfsadmin -safemode enter

12、节点添加

添加一个新的DataNode节点,先在新加节点上安装好Hadoop,要和NameNode使用相同的配置(可以直接从NameNode复制),修改HADOOPHOME/conf/master文件,加入NameNode主机名。然后在NameNode节点上修改HADOOPHOME/conf/master文件,加入NameNode主机名。然后在NameNode节点上修改HADOOP_HOME/conf/slaves文件,加入新节点名,再建立新加节点无密码的SSH连接,运行启动命令为:/usr/local/hadoop$bin/start-all.sh

13、负载均衡

HDFS的数据在各个DataNode中的分布可能很不均匀,尤其是在DataNode节点出现故障或新增DataNode节点时。新增数据块时NameNode对DataNode节点的选择策略也有可能导致数据块分布不均匀。用户可以使用命令重新平衡DataNode上的数据块的分布:/usr/local/hadoop$bin/start-balancer.sh

更多详细指令可参考Hadoop的API文档

最后附上大数据技术体系

大数据技术体系
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,997评论 6 502
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,603评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,359评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,309评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,346评论 6 390
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,258评论 1 300
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,122评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,970评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,403评论 1 313
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,596评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,769评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,464评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,075评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,705评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,848评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,831评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,678评论 2 354

推荐阅读更多精彩内容