java实现布隆过滤器

什么是布隆过滤器

布隆过滤器(Bloom Filter)是1970年由布隆提出来的。它实际上是由一个很长的二进制数组+一系列hash算法映射函数,用于判断一个元素是否存在于集合中。

布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都比一般的算法要好的多,缺点是有一定的误识别率和删除困难。


场景

假设有10亿条手机号,然后判断某条手机号是否在列表内?

mysql可以吗?

正常情况下,如果数据量不大,我们可以考虑使用mysql存储。将所有数据存储到数据库,然后每次去库里查询判断是否存在。但是如果数据量太大,超过千万,mysql查询效率是很低的,特别消耗性能。

HashSet可以吗

我们可以把数据放入HashSet中,利用HashSet天然的去重性,查询只需要调用contains方法即可,但是hashset是存放在内存中的,数据量过大内存直接oom了。

布隆过滤器特点

插入和查询效率高,占用空间少,但是返回的结果是不确定的。

一个元素如果判断为存在的时候,它不一定真的存在。但是如果判断一个元素不存在,那么它一定是不存在的。

布隆过滤器可以添加元素,但是一定不能删除元素,会导致误判率增加。

布隆过滤器原理

布隆过滤器其实就是是一个BIT数组,通过一系列hash算法映射出对应的hash,然后将hash对应的数组下标位置改为1。查询时就是对数据在进行一系列hash算法得到下标,从BIT数组里取数据如如果是1 则说明数据有可能存在,如果是0 说明一定不存在

为什么会有误差率

我们知道布隆过滤器其实是对数据做hash,那么不管用什么算法,都有可能两条不同的数据生成的hash确是相同的,也就是我们常说的hash冲突。

首先插入一条数据: 好好学技术


在插入一条数据:


这是如果查询一条数据,假设他的hash下标已经标为1了,那么布隆过滤器就会认为他存在


常见使用场景

缓存穿透

java实现布隆过滤器

package com.fandf.test.redis;

import java.util.BitSet;

/**

* java布隆过滤器

*

* @author fandongfeng

*/

public class MyBloomFilter {

    /**

    * 位数组大小

    */

    private static final int DEFAULT_SIZE = 2 << 24;

    /**

    * 通过这个数组创建多个Hash函数

    */

    private static final int[] SEEDS = new int[]{4, 8, 16, 32, 64, 128, 256};

    /**

    * 初始化位数组,数组中的元素只能是 0 或者 1

    */

    private final BitSet bits = new BitSet(DEFAULT_SIZE);

    /**

    * Hash函数数组

    */

    private final MyHash[] myHashes = new MyHash[SEEDS.length];

    /**

    * 初始化多个包含 Hash 函数的类数组,每个类中的 Hash 函数都不一样

    */

    public MyBloomFilter() {

        // 初始化多个不同的 Hash 函数

        for (int i = 0; i < SEEDS.length; i++) {

            myHashes[i] = new MyHash(DEFAULT_SIZE, SEEDS[i]);

        }

    }

    /**

    * 添加元素到位数组

    */

    public void add(Object value) {

        for (MyHash myHash : myHashes) {

            bits.set(myHash.hash(value), true);

        }

    }

    /**

    * 判断指定元素是否存在于位数组

    */

    public boolean contains(Object value) {

        boolean result = true;

        for (MyHash myHash : myHashes) {

            result = result && bits.get(myHash.hash(value));

        }

        return result;

    }

    /**

    * 自定义 Hash 函数

    */

    private class MyHash {

        private int cap;

        private int seed;

        MyHash(int cap, int seed) {

            this.cap = cap;

            this.seed = seed;

        }

        /**

        * 计算 Hash 值

        */

        int hash(Object obj) {

            return (obj == null) ? 0 : Math.abs(seed * (cap - 1) & (obj.hashCode() ^ (obj.hashCode() >>> 16)));

        }

    }

    public static void main(String[] args) {

        String str = "好好学技术";

        MyBloomFilter myBloomFilter = new MyBloomFilter();

        System.out.println("str是否存在:" + myBloomFilter.contains(str));

        myBloomFilter.add(str);

        System.out.println("str是否存在:" + myBloomFilter.contains(str));

    }

}

Guava实现布隆过滤器

引入依赖

<dependency>

    <groupId>com.google.guava</groupId>

    <artifactId>guava</artifactId>

    <version>31.1-jre</version>

</dependency>


package com.fandf.test.redis;

import com.google.common.base.Charsets;

import com.google.common.hash.BloomFilter;

import com.google.common.hash.Funnels;

/**

* @author fandongfeng

*/

public class GuavaBloomFilter {

    public static void main(String[] args) {

        BloomFilter<String> bloomFilter = BloomFilter.create(Funnels.stringFunnel(Charsets.UTF_8),100000,0.01);

        bloomFilter.put("好好学技术");

        System.out.println(bloomFilter.mightContain("不好好学技术"));

        System.out.println(bloomFilter.mightContain("好好学技术"));

    }

}

hutool实现布隆过滤器

引入依赖

<dependency>

    <groupId>cn.hutool</groupId>

    <artifactId>hutool-all</artifactId>

    <version>5.8.3</version>

</dependency>


package com.fandf.test.redis;

import cn.hutool.bloomfilter.BitMapBloomFilter;

import cn.hutool.bloomfilter.BloomFilterUtil;

/**

* @author fandongfeng

*/

public class HutoolBloomFilter {

    public static void main(String[] args) {

        BitMapBloomFilter bloomFilter = BloomFilterUtil.createBitMap(1000);

        bloomFilter.add("好好学技术");

        System.out.println(bloomFilter.contains("不好好学技术"));

        System.out.println(bloomFilter.contains("好好学技术"));

    }

}


Redisson实现布隆过滤器

引入依赖

<dependency>

    <groupId>org.redisson</groupId>

    <artifactId>redisson</artifactId>

    <version>3.20.0</version>

</dependency>


package com.fandf.test.redis;

import org.redisson.Redisson;

import org.redisson.api.RBloomFilter;

import org.redisson.api.RedissonClient;

import org.redisson.config.Config;

/**

* Redisson 实现布隆过滤器

* @author fandongfeng

*/

public class RedissonBloomFilter {

    public static void main(String[] args) {

        Config config = new Config();

        config.useSingleServer().setAddress("redis://127.0.0.1:6379");

        //构造Redisson

        RedissonClient redisson = Redisson.create(config);

        RBloomFilter<String> bloomFilter = redisson.getBloomFilter("name");

        //初始化布隆过滤器:预计元素为100000000L,误差率为1%

        bloomFilter.tryInit(100000000L,0.01);

        bloomFilter.add("好好学技术");

        System.out.println(bloomFilter.contains("不好好学技术"));

        System.out.println(bloomFilter.contains("好好学技术"));

    }

}

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,539评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,911评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,337评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,723评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,795评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,762评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,742评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,508评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,954评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,247评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,404评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,104评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,736评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,352评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,557评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,371评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,292评论 2 352

推荐阅读更多精彩内容

  • 记得前段时间的文章么?redis使用位图法记录在线用户的状态,还是需要自己实现一个IM在线用户状态的记录,今天来讲...
    小草莓子桑阅读 4,084评论 3 11
  • 什么是 BloomFilter 布隆过滤器(英语:Bloom Filter)是 1970 年由布隆提出的。它实际上...
    JavaKeeper_海星阅读 743评论 0 0
  • 一、布隆过滤器 1.1 原理 1.1.1 布隆过滤器基础版 原理就是一个对一个key进行k个hash算法获取k个值...
    CJ21阅读 5,019评论 0 5
  • 一、什么是布隆过滤器? 布隆过滤器可以用来判断一个元素是否在一个集合中。它的优势是只需要占用很小的内存空间以及有着...
    王知无阅读 1,400评论 1 8
  • 什么是 BloomFilter 布隆过滤器(英语:Bloom Filter)是 1970 年由布隆提出的。它实际上...
    AnyL8023阅读 456评论 0 0