Flume浅析

Flume的功能和架构特点

  1. ** 功能 **
    flume 是一个分布式的,可靠的,可用的,可以非常有效率的对大数据的日志数据进行收集、聚集、转移。
  2. 架构特点


    1.png
  • flume仅仅能运行在linux环境下,如果想收集windows服务器上的日志数据,可以配置一个网络文件系统(nfs),让windows上的日志数据可以在linux上访问。
  • 每一个flume进程都有一个agent层,agent层包含有source、channel、sink
    source:采集日志数据,并发送给channel
    channel:管道,用于连接source和sink,它是一个缓冲区,从source传来的数据会以event的形式在channel中排成队列,然后被sink取走。
    sink:获取channel中的数据,并存储到目标源中,目标源可以是HDFS和Hbase。
  • 配置文件很简单:只需要配置source、channel、sink
  • 数据是基于流式(只要有数据更新,就立即获取),因此可以在线实时的采集日志数据。
  1. 数据传输单元event


    2.png

    event是整个数据流的基本单位,每次source写和sink拿都是把数据封装在一个event对象中,类似于mapreduce的基本处理单位是<key,value>对一样。为了数据的安全性考虑,event载有的数据对flume来说是不透明的。

  2. flume数据流过程
    source监控某个文件,若文件数据改变,则将数据拿到,并封装到一个event当中,并put commit到channel中,channel的数据结构是一个先进先出的队列,sink主动去从channel当中拉去数据,然后存储到目标路径。

安装搭建Flume

flume的版本:flume-ng-1.5.0-cdh5.3.6

  1. 下载解压


    3.png

    4.png
  2. 修改配置文件
    编辑flume-env.sh文件,配置JDK目录
    export JAVA_HOME=/opt/modules/jdk1.8.0_101
    将hdfs的配置文件放到flume的conf目录中(要把搜集的数据放到hdfs中,需要找HADOOP_HOME)
    5.png
  3. 在中hdfs写数据,需要添加相应的jar包

commons-configuration-1.6.jar
hadoop-auth-2.5.0-cdh5.3.6.jar
hadoop-common-2.5.0-cdh5.3.6.jar

flume的使用

  1. 监控hive.log日志文件,channel设置为memory(如果宕机,不能完全读取数据);sink设置为logger,表示把数据打印到flume的配置文件中。
    source为exec,代表执行一个命令来监控文件
# define agent
a1.sources = s1
a1.channels = c1
a1.sinks = k1
# define the source
a1.sources.s1.type = exec
a1.sources.s1.command = tail -F /opt/cdh-5.3.6/hive-0.13.1-cdh5.3.6/logs/hive.log
a1.sources.s1.shell = /bin/sh -c
#define the channel
a1.channels.c1.type = memory
# define the sink
a1.sinks.k1.type = logger
# source link channel,and sink link channel
a1.sources.s1.channels = c1
a1.sinks.k1.channel = c1

运行

bin/flume-ng agent  -c conf/  -n   a1  -f  conf/hive-mem-log.properties -Dflume.root.logger=INFO,console

测试结果


6.png

可以从启动的INFO中发现启动agent的
启动顺序为: channel->sink->source
关闭顺序为: source->sink->channel

  1. 还是监控hive.log,由于channel为内存的时候,当发生宕机的时候,将会丢失数据,可以将channel设置为file,保证数据的安全性,便于恢复。
# define agent
a1.sources = s1
a1.channels = c1
a1.sinks = k1
# define the source
a1.sources.s1.type = exec
a1.sources.s1.command = tail -F /opt/modules/cdh/hive-0.13.1-cdh5.3.6/logs/hive.log
a1.sources.s1.shell = /bin/sh -c
#define the channel
a1.channels.c1.type = file
a1.channels.c1.checkpointDir = /opt/datas/flume-ch/checkpoint
a1.channels.c1.dataDirs = /opt/datas/flume-ch/datadirs
# define the sink
a1.sinks.k1.type = logger
# source link channel,and sink link channel
a1.sources.s1.channels = c1
a1.sinks.k1.channel = c1

checkpointDir是用来存储监控哪些目录
dataDirs用来存储数据文件,如果宕掉,且sink没有取走的话,可以从这个目录下面知道数据用来恢复
运行

bin/flume-ng agent -c conf/ -n a1 -f conf/channel-file.properties -Dflume.root.logger=INFO,console````
3. 将目标路径配置为hdfs

define agent

a1.sources = s1
a1.channels = c1
a1.sinks = k1

define the source

a1.sources.s1.type = exec
a1.sources.s1.command = tail -F /opt/cdh-5.3.6/hive-0.13.1-cdh5.3.6/logs/hive.log
a1.sources.s1.shell = /bin/sh -c

define the channel

a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 1000

define the sink

a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = /flume/hdfs
a1.sinks.k1.hdfs.fileType = DataStream

source link channel,and sink link channel

a1.sources.s1.channels = c1
a1.sinks.k1.channel = c1

测试结果
![7.png](http://upload-images.jianshu.io/upload_images/3068725-b13ca21257c24e76.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
4. 可以从上面的运行结果发现,存储到hdfs上的文件size很小,一般来说,不希望小文件太多,可以配置size的大小

define agent

a1.sources = s1
a1.channels = c1
a1.sinks = k1

define the source

a1.sources.s1.type = exec
a1.sources.s1.command = tail -F /opt/modules/cdh/hive-0.13.1-cdh5.3.6/logs/hive.log
a1.sources.s1.shell = /bin/sh -c

define the channel

a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 1000

define the sink

a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = /flume/size
a1.sinks.k1.hdfs.fileType = DataStream

表示隔多少秒生成一个新文件,设置为0,表名一直为一个文件

a1.sinks.k1.hdfs.rollInterval = 0

文件如果达到某个大小,则生成新文件

a1.sinks.k1.hdfs.rollSize = 10240
a1.sinks.k1.hdfs.rollCount = 0

source link channel,and sink link channel

a1.sources.s1.channels = c1
a1.sinks.k1.channel = c1

测试结果
![8.png](http://upload-images.jianshu.io/upload_images/3068725-896131d9f9c5ab32.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
从上图可以发现不再是1KB就生成一个新文件了。
5. 可以把路劲设置为日期,还可以设置文件的前缀,然后结合hive中的分区表使用

define agent

a1.sources = s1
a1.channels = c1
a1.sinks = k1

define the source

a1.sources.s1.type = exec
a1.sources.s1.command = tail -F /opt/modules/cdh/hive-0.13.1-cdh5.3.6/logs/hive.log
a1.sources.s1.shell = /bin/sh -c

define the channel

a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 1000

define the sink

a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = /flume/events/%y-%m-%d/%H-%M
a1.sinks.k1.hdfs.fileType = DataStream
a1.sinks.k1.hdfs.useLocalTimeStamp = true
a1.sinks.k1.hdfs.filePrefix = hive-log

source link channel,and sink link channel

a1.sources.s1.channels = c1
a1.sinks.k1.channel = c1

测试结果
![9.png](http://upload-images.jianshu.io/upload_images/3068725-7b8a32b2b75272cc.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
6. 配置source监控文件夹,只要文件夹有文件生成,就为立即被source获取,不管是原来已经存在的,还是后面新生成的,都会被上传到hdfs中。

define agent

a1.sources = s1
a1.channels = c1
a1.sinks = k1

define the source

a1.sources.s1.type = spooldir
a1.sources.s1.spoolDir = /opt/datas/flume-ch/spdir

define the channel

a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 1000

define the sink

a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = /flume/spdir
a1.sinks.k1.hdfs.fileType = DataStream

source link channel,and sink link channel

a1.sources.s1.channels = c1
a1.sinks.k1.channel = c1

测试结果
![10.png](http://upload-images.jianshu.io/upload_images/3068725-b1f519b46d2c9999.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
上传成功后,文件自动重命名,回家上后缀.COMPLETE
![11.png](http://upload-images.jianshu.io/upload_images/3068725-974d8e757fc83b23.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
7. 可以用正则表达式,指定忽略某些文件名,对其不上传。

define agent

a1.sources = s1
a1.channels = c1
a1.sinks = k1

define the source

a1.sources.s1.type = spooldir
a1.sources.s1.spoolDir = /opt/datas/flume-ch/spdir
a1.sources.s1.ignorePattern = ([^ ]*.tmp$)

define the channel

a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 1000

define the sink

a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = /flume/spdir
a1.sinks.k1.hdfs.fileType = DataStream

source link channel,and sink link channel

a1.sources.s1.channels = c1
a1.sinks.k1.channel = c1

这样写就可以忽略所有.tmp后缀的文件名,对其不上传,除非修改文件名不以.tmp结尾。还有个参数includePattern,可以设置需要包含的文件名。
8. 一个source多sink架构
![12.png](http://upload-images.jianshu.io/upload_images/3068725-b1bce24c7bf30656.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
因为有时候一份数据需要进行不同的数据分析,所以可以设置多sink结构,把数据上传的不同的框架和目录中。

define agent

a1.sources = s1
a1.channels = c1 c2
a1.sinks = k1 k2

define the source

a1.sources.s1.type = exec
a1.sources.s1.command = tail -F /opt/modules/cdh/hive-0.13.1-cdh5.3.6/logs/hive.log
a1.sources.s1.shell = /bin/sh -c

define the channel 1

a1.channels.c1.type = file
a1.channels.c1.checkpointDir = /opt/datas/flume-ch/check1
a1.channels.c1.dataDirs = /opt/datas/flume-ch/data1

define the channel 2

a1.channels.c2.type = file
a1.channels.c2.checkpointDir = /opt/datas/flume-ch/check2
a1.channels.c2.dataDirs = /opt/datas/flume-ch/data2

define the sink 1

a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = /flume/hdfs/sink1
a1.sinks.k1.hdfs.fileType = DataStream

define the sink 2

a1.sinks.k2.type = hdfs
a1.sinks.k2.hdfs.path = /flume/hdfs/sink2
a1.sinks.k2.hdfs.fileType = DataStream

source link channel,and sink link channel

a1.sources.s1.channels = c1 c2
a1.sinks.k1.channel = c1
a1.sinks.k2.channel = c2

测试结果
![13.png](http://upload-images.jianshu.io/upload_images/3068725-acd0f6c58d3ac995.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
![14.png](http://upload-images.jianshu.io/upload_images/3068725-244137b57d5c786e.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
9. 当我们想动态的监控一个目录,还想监控这个目录里面的文件该如何实现?  source使用taildirource模式,但是flume1.7之前是没有提供这个功能的,需要自己编译实现。这里不再赘述
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,076评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,658评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,732评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,493评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,591评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,598评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,601评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,348评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,797评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,114评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,278评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,953评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,585评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,202评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,442评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,180评论 2 367
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,139评论 2 352

推荐阅读更多精彩内容