Java实现布隆过滤器的方法步骤

2026-05-07 22:45:07

前言

记得前段时间的文章么？redis使用位图法记录在线用户的状态，还是需要自己实现一个IM在线用户状态的记录，今天来讲讲另一方案，布隆过滤器

布隆过滤器的作用是加快判定一个元素是否在集合中出现的方法。因为其主要是过滤掉了大部分元素间的精确匹配，故称为过滤器。

布隆过滤器

在日常生活工作，我们会经常遇到这的场景，从一个Excel里面检索一个信息在不在Excel表中，还记得被CTRL+F支配的恐惧么，不扯了，软件开发中，一般会使用散列表来实现，Hash Table也叫哈希表，哈希表的优点是快速准确，缺点是浪费储存空间，我们这个场景，储存登录的userId到哈希表，当用户规模十分巨大的时候，哈希表的储存效率低的问题就显示出来了，今天介绍一种数学工具：布隆过滤器，它只需要哈希表1/8到1/4的大小就能解决同样的问题。

背书中

布隆过滤器（Bloom Filter）是由伯顿·布隆（Burton Bloom）于1970年提出来的，它实际上是一个很长的二进制向量和一系列随机映射函数。

原理

使用我们这个场景，来讲原理吧，假设我们的个人网站同时在线人数达到1亿（意淫一下），要存储这一亿人的在线状态，先构建一个16亿比特位即两亿字节的向量，然后把这16亿个比特位都记为0。对于每一个登录用的userId，使用8个不同的算法产出8个不同信息指纹，在用一个算法把这8个信息隐身到这16亿个比特位的8个位置上，把这8个位置都设置成1，这样就构建成了一个记录一亿用户在线状态的布隆过滤器。

1亿在线用户的布隆过滤器

检索就是同样的原理，使用相同的算法对要检索的userId产生8个信息指纹，然后在看这八个信息指纹在这16亿比特位对应的值是否为1，都为1就说明这个userId在线，下面就用java代码来实现一个布隆过滤器。

Java实现布隆过滤器

先实现一个简单的布隆过滤器

package edu.se;

import java.util.BitSet;

/**
 * @author ZhaoWeinan
 * @date 2018/10/28
 * @description
 */
public class BloomFileter {

 //使用加法hash算法，所以定义了一个8个元素的质数数组
 private static final int[] primes = new int[]{2, 3, 5, 7, 11, 13, 17, 19};
 //用八个不同的质数，相当于构建8个不同算法
 private Hash[] hashList = new Hash[primes.length];
 //创建一个长度为10亿的比特位
 private BitSet bits = new BitSet(256 << 22);

 public BloomFileter() {
 for (int i = 0; i < primes.length; i++) {
  //使用8个质数，创建八种算法
  hashList[i] = new Hash(primes[i]);
 }
 }

 //添加元素
 public void add(String value) {
 for (Hash f : hashList) {
  //算出8个信息指纹，对应到2的32次方个比特位上
  bits.set(f.hash(value), true);
 }
 }

 //判断是否在布隆过滤器中
 public boolean contains(String value) {
 if (value == null) {
  return false;
 }
 boolean ret = true;
 for (Hash f : hashList) {
  //查看8个比特位上的值
  ret = ret && bits.get(f.hash(value));
 }
 return ret;
 }

 //加法hash算法
 public static class Hash {

 private int prime;

 public Hash(int prime) {
  this.prime = prime;
 }

 public int hash(String key) {
  int hash, i;
  for (hash = key.length(), i = 0; i < key.length(); i++) {
  hash += key.charAt(i);
  }
  return (hash % prime);
 }
 }

 public static void main(String[] args) {

 BloomFileter bloomFileter = new BloomFileter();
 System.out.println(bloomFileter.contains("5324512515"));
 bloomFileter.add("5324512515");

 //维护1亿个在线用户
 for (int i = 1 ; i < 100000000 ; i ++){
  bloomFileter.add(String.valueOf(i));
 }

 long begin = System.currentTimeMillis();
 System.out.println(begin);
 System.out.println(bloomFileter.contains("5324512515"));
 long end = System.currentTimeMillis();
 System.out.println(end);
 System.out.println("判断5324512515是否在线使用了:" + (begin - end));
 }
}

这段代码是构建了一个10亿位的bitSet，然后把一亿个userId加入到了我们的布隆过滤器中，最近判断5324512515这个userId是否登录，打出代码的执行时间

维护了1亿个userId以后检索5324512515是否登录，代码执行时间很短

在让我们来看看内存占用的情况

jvm整个的内存情况

再来看看BloomFileter这个类的实例，就占用了100多MB

实例的大小

看来布隆过滤器对于储存的效率确实很高

布隆过滤器的误识别问题

布隆过滤器的好处在于快速、省空间，但是有一定的误识别率，这个概率很小，要计算出现误识别的概率并不难，下面贴一段书上的话

假定布隆过滤器有m比特，里面有n个元素，每个元素对应k个信息指纹的hash函数，在这个布隆过滤器插入一个元素，那么比特位被设置成1的概率为1/m，它依然为0的概率为1-1/m，那么k个哈希函数都没有把他设置成1的概率为1-1/m的k次方，一个比特在插入了n个元素后，被设置为1的概率为1减1-1/m的kn次方，最后书上给出了一个公式，在这里就不贴了，就贴一个表吧，是m/n比值不同，以及K分别为不同的值得情况下的假阳性概率：

书上的表，直接拍下来的

布隆过滤器就为大家说到这里，欢迎大家来交流，指出文中一些说错的地方，让我加深认识。

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，如果有疑问大家可以留言交流，谢谢大家对我们的支持。

JAVA实现较完善的布隆过滤器的示例代码

布隆过滤器是可以用于判断一个元素是不是在一个集合里,并且相比于其它的数据结构,布隆过滤器在空间和时间方面都有巨大的优势.布隆过滤器存储空间和插入/查询时间都是常数.但是它也是拥有一定的缺点:布隆过滤器是有一定的误识别率以及删除困难的.本文中给出的布隆过滤器的实现,基本满足了日常使用所需要的功能. 0 0 0 0 0 0 0 0 0 0 先简单来说一下布隆过滤器.其实现方法就是:利用内存中一个长度为M的位数组B并初始化里面的所有位都为0,如下面的表格所示: 然后我们根据H个不同的散列函数,对传进来
布隆过滤器(Bloom Filter)的Java实现方法

布隆过滤器原理很简单:就是把一个字符串哈希成一个整数key,然后选取一个很长的比特序列,开始都是0,在key把此位置的0变为1:下次进来一个字符串,哈希之后的值key,如果在此比特位上的值也是1,那么就说明这个字符串存在了. 如果按照上面的做法,那就和哈希算法没有什么区别了,哈希算法还有重复的呢. 布隆过滤器是将一个字符串哈希成多个key,我还是按照书上的说吧. 先建立一个16亿二进制常量,然后将这16亿个二进制位全部置0.对于每个字符串,用8个不同的随机产生器(F1,F2,.....,F8)产
Java实现布隆过滤器的方法步骤

前言记得前段时间的文章么?redis使用位图法记录在线用户的状态,还是需要自己实现一个IM在线用户状态的记录,今天来讲讲另一方案,布隆过滤器布隆过滤器的作用是加快判定一个元素是否在集合中出现的方法.因为其主要是过滤掉了大部分元素间的精确匹配,故称为过滤器. 布隆过滤器在日常生活工作,我们会经常遇到这的场景,从一个Excel里面检索一个信息在不在Excel表中,还记得被CTRL+F支配的恐惧么,不扯了,软件开发中,一般会使用散列表来实现,Hash Table也叫哈希表,哈希表的优点是快速准确
Redis实现布隆过滤器的方法及原理

布隆过滤器(Bloom Filter)是1970年由布隆提出的.它实际上是一个很长的二进制向量和一系列随机映射函数.布隆过滤器可以用于检索一个元素是否在一个集合中.它的优点是空间效率和查询时间都比一般的算法要好的多,缺点是有一定的误识别率和删除困难. 本文将介绍布隆过滤器的原理以及Redis如何实现布隆过滤器. 应用场景 1.50亿个电话号码,现有10万个电话号码,如何判断这10万个是否已经存在在50亿个之中?(可能方案:数据库,set, hyperloglog) 2.新闻客户端看新闻时,它会不
布隆过滤器(bloom filter)及php和redis实现布隆过滤器的方法

引言在介绍布隆过滤器之前我们首先引入几个场景. 场景一在一个高并发的计数系统中,如果一个key没有计数,此时我们应该返回0,但是访问的key不存在,相当于每次访问缓存都不起作用了.那么如何避免频繁访问数量为0的key而导致的缓存被击穿? 有人说, 将这个key的值置为0存入缓存不就行了吗?确实,这是一个好的方案.大部分情况我们都是这样做的,当访问一个不存在的key的时候,设置一个带有过期时间的标志,然后放入缓存.不过这样做的缺点也很明显,浪费内存和无法抵御随机key攻击. 场景二在一个黑名
手把手搭建Java共享网盘的方法步骤

项目介绍在线共享网盘采用jsp+servlet搭建项目结构实现共享网盘,项目分为管理员,普通用户和付费用户三种角色,根据不同角色控制不同权限,实现不同用户对个人文件文件,所有文件,共享文件的增删改查操作. 项目适用人群正在做毕设的学生,或者需要项目实战练习的Java学习者开发环境: jdk 8 intellij idea tomcat 8.5.40 mysql 5.7 所用技术: jsp+servlet js+ajax layUi jdbc直连项目访问地址 http://localhos
Java自动生成编号的方法步骤

在新增数据时,往往需要自动生成编号.下面就以我的编号来说. 我的编号格式为:SR+日期(8位)+编号(3位). 其中,日期为系统当前的日期.首先获取系统当前日期,然后根据日期格式将date类型转换成String类型即可. SimpleDateFormat f = new SimpleDateFormat("yyyyMMdd");//设置日期格式 String date = f.format(new Date(System.currentTimeMillis())); 后三位编号根据数据
C++详细讲解模拟实现位图和布隆过滤器的方法

目录位图引论概念解决引论位图的模拟实现铺垫结构构造函数存储 set,reset,test flip,size,count any,none,all 重载流运算符测试位图简单应用位图代码汇总布隆过滤器引论要点代码实现效率解决方法位图引论四十亿个无符号整数,现在给你一个无符号整数,判断这个数是否在这四十亿个数中. 路人甲:简单,快排+二分. 可是存储这四十亿个整数需要多少空间? 简单算一下,1G=1024M=1024 * 1024KB=1024 * 1024
Java的布隆过滤器你了解吗

目录 BitMap 布隆过滤器运用场景传统数据结构的不足实现原理误判现象实现 Redis 的 bitmap RedisBloom Guava 的 BloomFilter Redisson 解决缓存穿透总结 BitMap 现代计算机用二进制(bit,位)作为信息的基础单位,1 个字节等于 8 位,例如big字符串是由 3 个字节组成,但实际在计算机存储时将其用二进制表示,big分别对应的 ASCII 码分别是 98.105.103,对应的二进制分别是 01100010.01101001
java配置数据库连接池的方法步骤

先来了解下什么是数据库连接池数据库连接池技术的思想非常简单,将数据库连接作为对象存储在一个Vector对象中,一旦数据库连接建立后,不同的数据库访问请求就可以共享这些连接,这样,通过复用这些已经建立的数据库连接,可以克服上述缺点,极大地节省系统资源和时间. 在实际应用开发中,特别是在WEB应用系统中,如果JSP.Servlet或EJB使用JDBC直接访问数据库中的数据,每一次数据访问请求都必须经历建立数据库连接.打开数据库.存取数据和关闭数据库连接等步骤,而连接并打开数据库是一件既消耗资源又费时
Java jar打包工具使用方法步骤解析

java的jar是一个打包工具,用于将我们编译后的class文件打包起来,这里面主要是举一个例子用来说明这个工具的使用. 在C盘下的temp文件夹下面: 有一个com.pack.surfront的package 这个package下面有一些已经class文件如:Test1.class,Test2.class,Test3.class,其中Test1.class下有一个可执行文件. 我们打开cmd,然后cd temp到temp文件夹下面,因为com.pack.surfront是包路径,不需要再进去然
selenium+java+chrome环境搭建的方法步骤

我只能说因为版本冲突,简直太折腾了,而搜了无数个博友的帖子才找到正确条案,就不能好好的写篇文章吗? 最近真的是太闲太闲了,平时没事总得搞点技术,不然心里感觉好空虚, 最近看上了selenium,所以试一下没啥目标头一篇这个环境搞的崩溃了,都是版本冲突,目前为止,我还未有解决firefox与selenium的版本冲突问题这是一篇只讲chrome的文章 1.selenium下载最新版本,我在官网下载的 http://selenium-release.storage.googleapis.com

Java实现布隆过滤器的方法步骤

相关推荐

随机推荐