亿万级海量数据去重软方法,spark/hive/flink/mr通用

一、场景描述:

小强作为一名数据工程师,给予hadoop生态,经常会接到类似uv的去重统计。对于这种需求,一般的数据工程师撸起袖子直接干!一般情况下不会有问题。某一天,你公司突然业务发展发展起来,数据量慢慢暴涨,你会突然发现之前的count distinct去重经常oom或是龟速出数据。上来一股脑加内存!加!果断加!某一天你老板要你在原来按天的uv加一个月uv、年uv,这时你慌了。只会说“老板!加机器,内存不够!”。老板说:“算个uv你就想骗我钱?你明天不用来上班了!”

打不死的小强这时拼命百度,在网上找到许多神乎其神的方法…

二、常用方法

1.优化sql

小强把原有的count distinct去重改成了group by,性能也提升了不少。安稳的日子过了一段后,公司数据量也一点一点增长,小强上来一把hive SQL,成功扛住:

select count(*) from (select uid,pid as upv from table_event group by uid,pid) tmp
复制代码

老板突然说要在某某维度下,加个upv统计,xxx的统计,指标不断增加,这时,小强的sql不得不改变:

select collect_set(uid) as uv,collect_set(uid,pid) as upv from table_event group by xxx,xx,x
复制代码

小强一执行,直接oom,于是,加内存,加内存,最后终于跑成功了,这时,集群内存也耗尽,upv十亿级,加上某些异常值的倾斜严重!小强不服气,又喊:“老板!加资源!没内存了!”。老板:“现在疫情期间,公司财务紧张,你做不了就走吧,没赔偿!”

2.借助第三方存储

小强不想被离职,想被老板认可,不甘被这种小需求难道!不停探索。想到一个法子:利用外部K-V数据库(Redis、HBase之类)存储需要去重的键,最后统计一把键的数量即可。做着做着,小强被这三点打回:

  • 外部存储介质不熟悉,维护成本大
  • 取值方式与现有方式差别太大,需要单独处理
  • 操作麻烦,需要写单独的udf

重重困难后,小强又放弃了…

3.bitmap

最后小强找到一种高大上的方法,老板都没听过,准备把这个方法拿去忽悠老板,结果老板没忽悠到,自己被下面几个难倒了

  • 侵入性太大,需要引入外部依赖,与现有环境冲突
  • 需要维护bit位,需要想办法把要去重的字符型id转为int或long类型
  • 扩展性太差,再加个维度需要重新编码bit位

太难了。。。最后。。。。小强被开除了。。。就是一个这么悲伤的故事

三、原理分析

在大数据分布式计算框架生态下,提升计算效率的方法是尽可能的把计算分布式话、并行化,避免单节点计算过载,把计算分摊到各个节点。这样解释小白能够听懂:比如你有5个桶,怎样轻松地把A池子的水倒入B池子里?

  • 最大并行化,5个桶同时利用,避免count distinct只用一个桶的方法
  • 重复利用化,一次提不动那么多水,不要打肿脸充胖子,一不小心oom,为什么不分几次呢
  • 数据均衡化,5个桶的水不要一个多一个少的,第一个提水的次数变多,第二个某些桶扛不住,俗称数据倾斜

四、案例实战

通过案例来说明海量数据如何高效的去重,下面是原始数据,要计算day_num维度下的uv,自己脑补出海量数据,这里为方便说明,只列举了day_num,一个维度用桶来描绘计算模型,假设数据都是按字典顺序分桶

> select * from event;
+----------------+------------+
| event.day_num  | event.uid  |
+----------------+------------+
| day1           | a          |
| day1           | a          |
| day1           | a          |
| day1           | a          |
| day1           | bb         |
| day1           | bb         |
| day1           | bbb        |
| day1           | ccc        |
| day1           | ccc        |
| day1           | dddd       |
| day1           | eeee       |
| day1           | eeeee      |
| day1           | eeeee      |
| day1           | eeeee      |
+----------------+------------+
复制代码
  • 原始方法,使用count distinct
select count(distinct(uid))as uv from event group by day_num;
复制代码

桶的使用如下:


可以看到所有数据装到一个桶里面,桶已经快装不下了,明显最差

  • 优化方法1
select size(collect_set(uid)) as uv from (select day_num,uid from event group by day_num,uid) tmp group by day_num;
复制代码

桶的使用如下:

可以明显看到比上面方法有进步,充分利用了桶,最大的实现了并行化,执行虽然分为了两部,但是大大减轻了第一步的负担,面向海量数据的场景去重方面拥有绝对的优势,假如第二步的结果集还是太大了呢?一样会oom扛不住

  • 优化方法2(推荐)

简单说就是转化计算,在一个jvm里面,硬去重的方法都逃不开把所有字符或字符的映射放一个对象里面,通过一定的逻辑获取去重集合,对于分布式海量数据的场景下,这种硬去重的计算仍然会花大量的时间在上图的最后单点去重的步骤,我们可以把去重的逻辑按照一定的规则分桶计算完成,每个桶之间分的数据都不重复,所有桶计算完桶内数据去重的集合大小,最后一步再相加。讲的有点抽象,上代码

create table event_tmp as select *,length(uid) as len_uid from event;
复制代码

为了方便说明,我拆分步骤,创建临时表,其中length(uid) as len_uid是映射字段,uid的长度

select sum(uv_tmp) as uv 
from
  (
      select day_num,size(collect_set(uid)) as uv_tmp 
       from event_tmp 
       group by len_uid,day_num
  ) tmp group by day_num
复制代码

桶的使用如下:


这里使用uid长度映射字段,实际开发中,你也可以选择首字母、末字母或者其它能想到的属性作为映射字段,分桶分步预聚合的方法,巧妙的把一个集合去重问题最终转化为相加问题,避开了单个jvm去重承受的压力,在海量数据的场景下,这个方法最为使用,推荐用在生产上。

五、总结

海量数据高效去重的思想就是最大的把计算和数据并行化,充分利用、均衡利用分布式集群下的算力,避开单点压力,强去重的方法在小数据量下会有优势,在海量数据下去重,必须要考虑转换思想。上面的优化方法,举了个简单的栗子,在实际开发当中,不仅仅是sql,在编写spark flink程序里面思想也一样通用,尤其是实时去重,用强去重的方法你得始终维护一个大集合,这样会代码很大的资源浪费和维护成本,想办法把要去重的数据映射一个可以均分数据key出来做预聚合,别来硬的,试试软方法

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,406评论 6 503
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,732评论 3 393
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,711评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,380评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,432评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,301评论 1 301
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,145评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,008评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,443评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,649评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,795评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,501评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,119评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,731评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,865评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,899评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,724评论 2 354

推荐阅读更多精彩内容