数据结构-布隆过滤器

布隆过滤器

布隆过滤器是一种由位数组和多个哈希函数组成概率数据结构，返回两种结果 可能存在 和 一定不存在。

布隆过滤器里的一个元素由多个状态值共同确定。位数组存储状态值，哈希函数计算状态值的位置。

根据它的算法结构，有如下特征：

使用有限位数组表示大于它长度的元素数量，因为一个位的状态值可以同时标识多个元素。
不能删除元素。因为一个位的状态值可能同时标识着多个元素。
添加元素永远不会失败。只是随着添加元素增多，误判率会上升。
如果判断元素不存在，那么它一定不存在。

比如下面，X,Y,Z 分别由 3个状态值共同确定元素是否存在，状态值的位置通过3个哈希函数分别计算。

bloom

数学关系

误判概率

关于误判概率，因为每个位的状态值可能同时标识多个元素，所以它存在一定的误判概率。如果位数组满，当判断元素是否存在时，它会始终返回true，对于不存在的元素来说，它的误判率就是100%。

那么，误判概率和哪些因素有关，已添加元素的数量，布隆过滤器长度（位数组大小），哈希函数数量。

根据维基百科推理误判概率 $P_{fp}$ 有如下关系：
${ P_{fp} =\left(1-\left[1-{\frac {1}{m}}\right]^{kn}\right)^{k}\approx \left(1-e^{{-\frac {kn}{m}}}\right)^{k}}$

$m$ 是位数组的大小；
$n$ 是已经添加元素的数量；
$k$ 是哈希函数数量；
$e$ 数学常数，约等于2.718281828。

由此可以得到，当添加元素数量为0时，误报率为0；当位数组全都为1时，误报率为100%。

不同数量哈希函数下， $P_{fp}$ 和 $n$ 的关系如下图：

Bloom_filter_fp_probability

根据误判概率公式可以做一些事

估算最佳布隆过滤器长度。
估算最佳哈希函数数量。

最佳布隆过滤器长度

当 $n$ 添加元素和 $P_{fp}$ 误报概率确定时， $m$ 等于：
$m=-{\frac {n\ln P_{fp}}{(\ln 2)^{2}}} \approx -1.44\cdot n\log _{2}P_{fp}$

最佳哈希函数数量

当 $n$ 和 $P_{fp}$ 确定时， $k$ 等于：
$k=-{\frac {\ln P_{fp} }{\ln 2}}=-\log _{2}P_{fp}$

当 $n$ 和 $m$ 确定时， $k$ 等于：
$k={\frac {m}{n}}\ln 2$

实现布隆过滤器

使用布隆过滤器前，我们一般会评估两个因素。

预期添加元素的最大数量。
业务对错误的容忍程度。比如1000个允许错一个，那么误判概率应该在千分之一内。

很多布隆过滤工具都提供了预期添加数量和误判概率配置参数，它们会根据配置的参数计算出最佳的长度和哈希函数数量。

Java中有一些不错的布隆过滤工具包。

Guava 中 BloomFilter。
redisson 中 RedissonBloomFilter 可以redis 中使用。

看下 Guava 中 BloomFilter 的简单实现，创建前先计算出位数组长度和哈希函数数量。

 static <T> BloomFilter<T> create(
      Funnel<? super T> funnel, long expectedInsertions, double fpp, Strategy strategy) {
    /**
     * expectedInsertions：预期添加数量
     * fpp：误判概率
     */
    long numBits = optimalNumOfBits(expectedInsertions, fpp);
    int numHashFunctions = optimalNumOfHashFunctions(expectedInsertions, numBits);
    try {
      return new BloomFilter<T>(new BitArray(numBits), numHashFunctions, funnel, strategy);
    } catch (IllegalArgumentException e) {
      throw new IllegalArgumentException("Could not create BloomFilter of " + numBits + " bits", e);
    }
  }

根据最佳布隆过滤器长度公式，计算最佳位数组长度。


static long optimalNumOfBits(long n, double p) {
    if (p == 0) {
      p = Double.MIN_VALUE;
    }
    return (long) (-n * Math.log(p) / (Math.log(2) * Math.log(2)));
  }

根据最佳哈希函数数量公式，计算最佳哈希函数数量。

static int optimalNumOfHashFunctions(long n, long m) {
    return Math.max(1, (int) Math.round((double) m / n * Math.log(2)));
  }

在redisson 中 RedissonBloomFilter 计算方法也是一致。

    private int optimalNumOfHashFunctions(long n, long m) {
        return Math.max(1, (int) Math.round((double) m / n * Math.log(2)));
      }

    private long optimalNumOfBits(long n, double p) {
        if (p == 0) {
            p = Double.MIN_VALUE;
        }
        return (long) (-n * Math.log(p) / (Math.log(2) * Math.log(2)));
    }

内存占用

设想一个手机号去重场景，每个手机号占用22 Byte，估算逻辑内存如下。

expected	HashSet	fpp=0.0001	fpp=0.0000001
100万	18.28MB	2.29MB	4MB
1000万	182.82MB	22.85MB	40MB
1亿	1.78G	228.53MB	400MB

注：实际物理内存占用大于逻辑内存。

误判概率 $p$ 和已添加的元素 $n$ ，位数组长度 $m$ ，哈希函数数量 $k$ 关系如下：

关系图

应用场景

弱密码检测；
垃圾邮件地址过滤。
浏览器检测钓鱼网站；
缓存穿透。

弱密码检测

维护一个哈希过弱密码列表。当用户注册或更新密码时，使用布隆过滤器检查新密码，检测到提示用户。

垃圾邮件地址过滤

维护一个哈希过垃圾邮件地址列表。当用户接收邮件，使用布隆过滤器检测，检测到标识为垃圾邮件。

浏览器检测钓鱼网站

使用布隆过滤器来查找钓鱼网站数据库中是否存在某个网站的 URL。

缓存穿透

缓存穿透是指查询一个根本不存在的数据，缓存层和数据库都不会命中。当缓存未命中时，查询数据库

数据库不命中，空结果不会写回缓存并返回空结果。
数据库命中，查询结果写回缓存并返回结果。

一个典型的攻击，模拟大量请求查询不存在的数据，所有请求落到数据库，造成数据库宕机。

其中一种解决方案，将存在的缓存放入布隆过滤器，在请求前进行校验过滤。

缓存

小结

对于千万亿级别的数据来说，使用布隆过滤器具有一定优势，另外根据业务场景合理评估预期添加数量和误判概率是关键。

参考

https://en.wikipedia.org/wiki/Bloom_filter

https://hur.st/bloomfilter

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,271评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,275评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,151评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,550评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,553评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,559评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,924评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,580评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,826评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,578评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,661评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,363评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,940评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,926评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,156评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,872评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,391评论 2赞 342