假设有一个大小是1000T的文件,文件里每行是一个字符串 求出重复的行 思路: 先看有多少机器,如果1000台机器 我们可以按行读取文件,把每行数据利用hash函数求出hashcode,再%1000,结果是几就放再哪个机器上,这样相同的字符串有相同的hashcode值,那么他们必然放在同一台机器上,这样就可以更快速的得到答案了.当然如果说分批处理一台机器上数据量还是很大可以再进行hash再次细分处理.