SimHash和MinHash

在搜索中,文本滤重可以节省存储空间,并使得排序效果更优。在推荐中,如果应用协同过滤算法,可以节省计算时间。不管在哪种应用场景下,面临的问题都是,需要滤重的对象的数量非常大,且其特征的表示维度非常高,如果进行两两的比较,那么时间复杂度和空间复杂度都很高。因此,1要对特征进行降维,但是降维后的特征仍可计算相似度,根据降维的算法不同,计算相似度的算法不同。(局部敏感哈希LSH可以将相似的字符串hash得到相似的hash值。)2 不能两两进行比较,需要根据降维后的特征,选出候选的最可能相似的两两进行比较即可,把完全不可能相似的排除在外。

在google的论文里,再论文本身的滤重中用到了SIMHash。在论文的推荐中用到了MinHash。两者都是局部敏感哈希。

SimHash

1. 首先基于传统的IR方法,将文章转换为一组加权的特征向量

2. 初始化一个f维的向量V,其中每一个元素初始值为0。

3. 对于文章的特征向量集中的每一个特征,做如下计算:

a) 利用传统的hash算法映射到一个f-bit(一般设成32位或者64位)的签名。对于这个f- bit的签名,如果签名的第i位上为1,则对向量V中第i维加上这个特征的权值,否则对向量的第i维减去该特征的权值

b) 整个特征向量的集合迭代上述运算后,根据V中每一维向量的符号来确定生成的f-bit指纹的值,如果V的第i维为正数,则生成f-bit指纹的第i维为1,否则为0。

汉明距离来衡量相似度。

Simhash算法比较高效,比较适用于对于长文本。

MinHash:集合A、B是docA、docB的one-hot词向量。

1. 使用一组随机的hash函数h(x)对集合A和B中的每个元素进行hash

2. hmin(A)、hmin(B)分别表示分别hash后集合A和集合B的最小值的向量。

3. jarcarrd距离来衡量相似度。

候选的选择:对于一个32位的指纹来说,将该指纹划分成4段(band),每个区间8位,如果两个指纹至多存在3(设k=3)位差异,那么至少有一段的8位是完全相同的,因此可以考虑利用分段来建立索引,来减少需要匹配的候选指纹数量。

SIMHash后的汉明距离为何可以衡量相似度:衡量两个文本的相似度可以看做衡量高维空间向量的夹角。

区别

SIMHash 不适合短文本?

场景特征: 数据量1亿+ ,线下做数据滤重。

但是没有每天新增n多数据。因此在对候选相似集合进行比较时,对性能要求不是特别高。

文本长度算是短文本。短文本测试如下,图为盗图。相似度在0.8左右的Hamming距离为7,只有相似度高到0.9412,Hamming距离才近到4,此时,反观Google对此算法的应用场景:网页近重复。

MinHash 适合稀疏的数据?

MinHash: 100维,10*10band 。0.7 and (0.7 or 0.7)   122行

50维,10*5band 。0.7 and (0.7 or 0.7)   82行

50维,5*10band 。0.7 and (0.7 or 0.7)  866行  1个半小时 

50维,2*25band 。0.7 and (0.7 or 0.7)  5%的reduce失败,未找到原因。但是1个半小时, 1w+ 行

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,657评论 6 505
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,889评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,057评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,509评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,562评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,443评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,251评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,129评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,561评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,779评论 3 335
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,902评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,621评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,220评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,838评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,971评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,025评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,843评论 2 354

推荐阅读更多精彩内容