BloomFilter能解决什么问题
在我们对查询语句添加缓存的情况中,会存在缓存穿透的情况,即请求方故意以一种不存在的key进行查询,导致每次请求都无法命中缓存,请求都打到数据库,可能会把数据库给打挂掉.
对于这种缓存穿透的情况,我们有如下的方案:
1.数据返回为空的话,我们将空数据也缓存在缓存中.
但是这种情况会存在一个问题,如果请求每次来查询的都是不同的不存在的key,这些请求还是会打到数据库层面,并且缓存中缓存了大量的空对象.这种方案治标不治本
2.使用BloomFilter,BloomFilter存储着所有的key,如果key在BloomFilter中不存在,则一定不存在.但是BloomFilter存在误判的情况.即如果key在BloomFilter中存在,可能不存在,这时候再去走缓存,查数据库,但是这时候已经过滤了绝大多数的key,打到数据库的key已经很少了.
那BloomFilter的底层实现原理到底是怎么样的呢?
首先我们先看下Guava里的BloomFilter
需要引入的jar包
<dependency>
<groupId>com.google.guava</groupId>
<artifactId>guava</artifactId>
<version>23.0</version>
</dependency>
BloomFilter<Integer> integerBloomFilter = BloomFilter.create(Funnels.integerFunnel(), 1000, 0.01d);
这样便创建了一个BloomFilter。参数含义如下:
1.第一个参数指的是BloomFilter中塞入的数据类型
2.第二个参数指的是期望的大小
3.第三个参数指的是容错的概率(不能等于0)
BloomFilter底层是bitmap形式,所以所占的内存比我们常用的hashmap小很多,所以可以存放大量数据。
总的来说,数据存入BloomFilter时,通过K个hash函数,将数据进行hash,然后将制定槽位的数据置为1。容错概率越小,K值越大,最后实际BloomFilter的大小也就越大。
BloomFilter判断该值是否存在,还是将该值通过K个hash函数进行hash,如果K个hash值的每个槽位的值都为1,则该数据可能存在,因为hash是有hash碰撞的情况的。如果有个槽位不为1,则该值就一定不存在。
相应的,如果我们的服务有多个集群,那么Guava的BloomFilter就不是很适用了,我们可以使用redis的BitMap结构来进行处理。