大数据

hash分桶法

方法的本质是化大为小,用磁盘空间换内存空间

关键词:内存不足

本质:map-reduce思想
map阶段把数据map到不同的桶(机器)里,不同的机器处理子问题
reduce阶段将各个机器的结果汇总,得到结论

有一个超过100G大小的日志,从中找出出现次数最多的IP地址

如果内存足够大,这个问题该如何解决?不是top k,是top 1

用hash表就好了,以ip地址为key,以次数为value,扫描一遍hash表就可以了。

时间复杂度: O(N*read次数)
空间复杂度:O(不同的IP数量)
最大内存: 2^32个ip地址,每个用int保存,所以需要最多是 4G * 4 =16G的内存

如果内存不够怎么办?假设只有10m

大数据屡试不爽的方法是Hash分桶法,其实也是map reduce的思路

1、首先把100g的文件分成10000份,其实就是10000个桶;
2、然后把每个ip地址映射到一个桶里去,方法
file_id = hash(ip) % 10000
3、在每个文件中都找出出现频率最高的ip以及次数;
4、把这10000个最高频的ip进行合并,得到最终结果

时间复杂度:O(2n * read + nwrite)
空间复杂度:O(不同IP数量/10000)

和上题相同,不过要找top k

命令行方式
sort log_file | uniq -c | sort -nr k1,1 | head -10

HashMap+堆

把数据分发到不同桶
每个桶分别统计top k
最后top k 汇总

5亿个整数,找出不重复的数的个数

如何做distinct

还是hash分桶法,相同的数据肯定会被分到相同的桶里,然后分别统计每个桶中不同的数字的个数,最后汇总就可以了。
另外,这个题有个关键字——整数,所以我们可以按照整数的区间去做分桶,而不一定要用hash分桶。

类似题目:
给你一天的query log,找到最高频的top k个query
给qq登录数据,找到次数最多的qq号
给你购物数据,找出最多的物品

Bitmap

这是处理整数问题最有用的方法

给两个文件,分别有100亿个整数,只有1g内存,如何找到两个文件的交集

方法1:hash分桶法
如果不是数字,而是query、商品,这时可以用分桶法,因为相同的内容可能会被分到相同的桶里,所以我们就生成两组桶,然后桶桶合并就好了。

方法2:针对整数
hash法虽然有效,但是要借助外存。而这个问题有个关键字——整数,所以我们是可以用bitmap来做的。

关键字:整数,1g内存

bitmap思想:可以用每个二进制位代表一个数字是否出现。
一个int变量有32位,可以表示32个整数。
而全部的整数不过是 4G个。如果原样保存,需要4*4 =16G的内存。而现在表示全部整数需要 4g /32 =500m内存就够了。

一个文件有100亿个int,1g内存,找出出现次数不超过2次的所有整数。

思想还是一样:用bitmap,只是之前用1位表示一个数字的出现或者不出现,这次用2位表示一个数字的出现次数,0不出现、1出现1次,2出现2次或者以上。

Bloomfilter

有两个文件,分别有100亿个query,只有1g内存,如何找到两个文件的交集。

方法1:hash分桶法

缺点,频繁磁盘读写

方法2:bloomfilter
首先,bloomfilter是个近似算法,不是精确算法,所以,需要先确认,是需要近似解还是精确解。如果是精确解,就只能用hash分桶法。

位数组和k个独立的hash函数,将hash函数对应的位数组的位置置为1。

查找时,如果发现所有hash函数对应的位置都是1,就说明存在。
韩显然这个过程不能保证查找的结果都是100%的正确。

只能说在这里的一定能找到,但是找到的不一定真的在这里。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,657评论 6 505
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,889评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,057评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,509评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,562评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,443评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,251评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,129评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,561评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,779评论 3 335
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,902评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,621评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,220评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,838评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,971评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,025评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,843评论 2 354

推荐阅读更多精彩内容