在之前的一篇文章中,我们已经深入理解了布隆过滤器的基本原理,并且了解到它在缓存系统中有较多的应用。Redis提供的Bitmap正好能够作为布隆过滤器所需要的位数组的基础,本文先简要介绍Bitmap,然后给出基于它的布隆过滤器实现。
Bitmap在Redis中并不是一个单独的数据类型,而是由字符串类型(Redis内部称Simple Dynamic String,SDS)之上定义的与比特相关的操作实现的,此时SDS就被当做位数组了。下面是在redis-cli中使用getbit和setbit指令的操作示例。
# 字符串"meow"的二进制表示:01101101 01100101 01101111 01110111
es1:19000> set bitmap_cat "meow"
OK
# 最低位下标为0。取得第3位的比特(0)
es1:19000> getbit bitmap_cat 3
(integer) 0
# 取得第23位的比特(1)
es1:19000> getbit bitmap_cat 23
(integer) 1
# 将第7位设为0
es1:19000> setbit bitmap_cat 7 0
(integer) 1
# 将第14位设为1
es1:19000> setbit bitmap_cat 14 1
(integer) 0
# 修改过后的字符串变成了"lgow"
es1:19000> get bitmap_cat
"lgow"
Redis的Bitmap是自动扩容的,亦即get/set到高位时,就会主动填充0。此外,还有bitcount指令用于计算特定字节范围内1的个数,bitop指令用来执行位运算(支持and、or、xor和not)。相应的用法可以查询Redis官方文档等。
下面我们基于Redis(Codis)实现布隆过滤器RedisBloomFilter。根据之前讲解布隆过滤器的文章,要初始化一个布隆过滤器的话,需要两个参数:预估的元素数量,以及可接受的最大误差(即假阳性率)。另外,我们也需要传入Jodis的连接池实例JedisResourcePool,以方便在Redis上操作。RedisBloomFilter类的成员和构造方法如下所示。
public class RedisBloomFilter {
private static final Logger LOGGER = Logger.getLogger(RedisBloomFilter.class);
private static final String BF_KEY_PREFIX = "bf:";
private int numApproxElements;
private double fpp;
private int numHashFunctions;
private int bitmapLength;
private JedisResourcePool jedisResourcePool;
/**
* 构造布隆过滤器。注意:在同一业务场景下,三个参数务必相同
*
* @param numApproxElements 预估元素数量
* @param fpp 可接受的最大误差(假阳性率)
* @param jedisResourcePool Codis专用的Jedis连接池
*/
public RedisBloomFilter(int numApproxElements, double fpp, JedisResourcePool jedisResourcePool) {
this.numApproxElements = numApproxElements;
this.fpp = fpp;
this.jedisResourcePool = jedisResourcePool;
bitmapLength = (int) (-numApproxElements * Math.log(fpp) / (Math.log(2) * Math.log(2)));
numHashFunctions = Math.max(1, (int) Math.round((double) bitmapLength / numApproxElements * Math.log(2)));
}
/**
* 取得自动计算的最优哈希函数个数
*/
public int getNumHashFunctions() {
return numHashFunctions;
}
/**
* 取得自动计算的最优Bitmap长度
*/
public int getBitmapLength() {
return bitmapLength;
}
// 以下都是方法
}
为了区分出布隆过滤器对应的Key,在原始Key的前面都加上"bf:"前缀。Bitmap长度bitmapLength和哈希函数个数numHashFunctions则利用Guava版实现中的方法来计算。
然后,我们需要计算一个元素被k个哈希函数散列后,对应到Bitmap的哪些比特上。这里仍然借鉴了Guava的BloomFilterStrategies实现,采用MurmurHash和双重哈希进行散列。为了应用简单,假设所有元素固定为字符串类型,不用泛型。
/**
* 计算一个元素值哈希后映射到Bitmap的哪些bit上
*
* @param element 元素值
* @return bit下标的数组
*/
private long[] getBitIndices(String element) {
long[] indices = new long[numHashFunctions];
byte[] bytes = Hashing.murmur3_128()
.hashObject(element, Funnels.stringFunnel(Charset.forName("UTF-8")))
.asBytes();
long hash1 = Longs.fromBytes(
bytes[7], bytes[6], bytes[5], bytes[4], bytes[3], bytes[2], bytes[1], bytes[0]
);
long hash2 = Longs.fromBytes(
bytes[15], bytes[14], bytes[13], bytes[12], bytes[11], bytes[10], bytes[9], bytes[8]
);
long combinedHash = hash1;
for (int i = 0; i < numHashFunctions; i++) {
indices[i] = (combinedHash & Long.MAX_VALUE) % bitmapLength;
combinedHash += hash2;
}
return indices;
}
然后我们就可以通过Jedis的setbit()和getbit()方法来实现向布隆过滤器中插入元素与查询元素是否存在的逻辑了。一个元素会对应多个比特,为了提高效率,流水线就派上用场了。另外,setbit指令不会重置对应Key的过期时间戳。
/**
* 插入元素
*
* @param key 原始Redis键,会自动加上'bf:'前缀
* @param element 元素值,字符串类型
* @param expireSec 过期时间(秒)
*/
public void insert(String key, String element, int expireSec) {
if (key == null || element == null) {
throw new RuntimeException("键值均不能为空");
}
String actualKey = BF_KEY_PREFIX.concat(key);
try (Jedis jedis = jedisResourcePool.getResource()) {
try (Pipeline pipeline = jedis.pipelined()) {
for (long index : getBitIndices(element)) {
pipeline.setbit(actualKey, index, true);
}
pipeline.syncAndReturnAll();
} catch (IOException ex) {
LOGGER.error("pipeline.close()发生IOException", ex);
}
jedis.expire(actualKey, expireSec);
}
}
/**
* 检查元素在集合中是否(可能)存在
*
* @param key 原始Redis键,会自动加上'bf:'前缀
* @param element 元素值,字符串类型
*/
public boolean mayExist(String key, String element) {
if (key == null || element == null) {
throw new RuntimeException("键值均不能为空");
}
String actualKey = BF_KEY_PREFIX.concat(key);
boolean result = false;
try (Jedis jedis = jedisResourcePool.getResource()) {
try (Pipeline pipeline = jedis.pipelined()) {
for (long index : getBitIndices(element)) {
pipeline.getbit(actualKey, index);
}
result = !pipeline.syncAndReturnAll().contains(false);
} catch (IOException ex) {
LOGGER.error("pipeline.close()发生IOException", ex);
}
}
return result;
}
完毕,写个简单的单元测试吧。假设现在用布隆过滤器来存储已读帖子的ID,Key中包含用户ID和时间。每天预估的每用户最大阅读量是3000篇,最大误差3%。
public class RedisBloomFilterTest {
private static final int NUM_APPROX_ELEMENTS = 3000;
private static final double FPP = 0.03;
private static final int DAY_SEC = 60 * 60 * 24;
private static JedisResourcePool jedisResourcePool;
private static RedisBloomFilter redisBloomFilter;
@BeforeClass
public static void beforeClass() throws Exception {
jedisResourcePool = RoundRobinJedisPool.create()
.curatorClient("10.10.99.130:2181,10.10.99.132:2181,10.10.99.133:2181,10.10.99.124:2181,10.10.99.125:2181,", 10000)
.zkProxyDir("/jodis/bd-redis")
.build();
redisBloomFilter = new RedisBloomFilter(NUM_APPROX_ELEMENTS, FPP, jedisResourcePool);
System.out.println("numHashFunctions: " + redisBloomFilter.getNumHashFunctions());
System.out.println("bitmapLength: " + redisBloomFilter.getBitmapLength());
}
@AfterClass
public static void afterClass() throws Exception {
jedisResourcePool.close();
}
@Test
public void testInsert() throws Exception {
redisBloomFilter.insert("topic_read:8839540:20190609", "76930242", DAY_SEC);
redisBloomFilter.insert("topic_read:8839540:20190609", "76930243", DAY_SEC);
redisBloomFilter.insert("topic_read:8839540:20190609", "76930244", DAY_SEC);
redisBloomFilter.insert("topic_read:8839540:20190609", "76930245", DAY_SEC);
redisBloomFilter.insert("topic_read:8839540:20190609", "76930246", DAY_SEC);
}
@Test
public void testMayExist() throws Exception {
System.out.println(redisBloomFilter.mayExist("topic_read:8839540:20190609", "76930242"));
System.out.println(redisBloomFilter.mayExist("topic_read:8839540:20190609", "76930244"));
System.out.println(redisBloomFilter.mayExist("topic_read:8839540:20190609", "76930246"));
System.out.println(redisBloomFilter.mayExist("topic_read:8839540:20190609", "76930248"));
}
}
观察输出。
numHashFunctions: 5
bitmapLength: 21895
true
true
true
false