HBase分析之Filter

Filter的作用是谓词下推,就是在Scan查询数据时,将过滤数据的操作放到服务端进行,减少数据的传输,减少网络IO。

介绍Filter使用方法的文章很多,就不再赘述了,主要记录下如何自定义Filter。

解析

在一次Scan的过程中,Filter存在于2个地方:

  1. RegionScannerImpl中,用来做整理流程的把控、StoreScanner的过滤和行级别的过滤处理。
  2. ScanQueryMatcher中,做Cell级别的过滤处理。

RegionScannerImpl中调用Filter的方法:

  1. 首先是isFamilyEssential,在HRegion创建Scanner时,用于筛选StoreScanner,当有多个列族时,筛选不通过的StoreScanner将放进joinedHeap中。joinedHeap中的StoreScanner不参与主流程的查询,只在主要StoreScanner查询完,确定了要这行数据,才会执行查询,并且只执行ScanQueryMatcher中调用Filter的方法。
  2. hasFilterRow。返回true的话,才有机会执行filterRowCells、filterRowCellsWithRet。
  3. filterRowCells。
  4. filterRowKey。这里Filter判断是否要过滤掉这一行,true表示过滤掉这一行。
  5. filterRowCellsWithRet。
  6. filterRow。执行差不多了,再判断一次,是否要过滤掉这一行。
  7. 在完成了一行的查询之后,会调用reset,清空临时状态。另外有种特殊情况,当Size、Time或Batch达到上限时,查询会提前返回,这时候,是不调用reset的,状态会持续到下一次请求。
  8. filterAllRemaining。true表示筛选是否完成了,没有更多数据了,整个Scan完成。

ScanQueryMatcher中调用Filter的方法:

  1. filterAllRemaining。里面也给了一次机会,判断是否执行完成了Scan。
  2. filterKeyValue。ColumnTracker返回值是MatchCode.INCLUDE时,默认一定是MatchCode.INCLUDE,会调用filterKeyValue,执行Filter的过滤操作,返回值是MatchCode。
  3. transformCell、getNextCellHint。严格来说,这2个方法是在StoreScanner里执行的
    1. 判断返回值为INCLUDE_AND_SEEK_NEXT_COL时,执行Filter.transformCell。
    2. 判断返回值为SEEK_NEXT_USING_HINT时,执行Filter.getNextCellHint。

Filter还有2个方法,用于RPC时,将Filter发送到服务端

  1. toByteArray。首先需要转成字节码发送,调用的就是Filter的toByteArray方法。

  2. parseFrom。到服务端再转成Filter,调用的是Filter的类方法parseFrom。

Protobuf安装

既然要发送实例到服务端,就需要Protobuf了。HBase1.3.2版本使用的是protobuf2.5.0,所以这里装个2.5.0。其他版本在Git Release上找下,安装流程是一样的。2.x和3.x生成的Java代码并不兼容,已有3.x也按照下面步骤执行就行。

  1. 下载protobuf-2.5.0.zip,解压。
  2. 检查下是否安装autoreconf和make,执行brew install autoconf && brew install automake
  3. 到目录下执行./autogen.sh && ./configure && make
  4. 检查下make状态,make check,没问题执行make install
  5. 检查下是否安装成功,protoc --version显示libprotoc 2.5.0

基本示例

先写个Filter.proto文件,版本proto2。外部类名字不能和内部类一样,名就取个Filter。

syntax = "proto2";

option java_package = "cn.edu.bupt.hbase.protobuf.generated";
option java_outer_classname = "Filter";
option java_generate_equals_and_hash = true;
option optimize_for = SPEED;

message AnFilter {
}

执行protoc编译命令,生成Protobuf版的Filter类。

protoc --proto_path=src/main/protobuf/ --java_out=src/main/java/ src/main/protobuf/Filter.proto

写个Java的Filter类,继承FilterBase,引用前面生成的Filter.AnFilter。

public class AnFilter extends FilterBase {

    @Override
    public ReturnCode filterKeyValue(Cell cell) throws IOException {
        // 默认值
        return null;
    }

    public byte[] toByteArray() {
        // 使用Filter.AnFilter
        Filter.AnFilter.Builder builder = Filter.AnFilter.newBuilder();
        return builder.build().toByteArray();
    }

    public static AnFilter parseFrom(byte[] pbBytes) throws DeserializationException {
        // 这里暂时不解析了,直接new一个
        return new AnFilter();
    }
}

把代码打包,放入HBase的classpath里,重启HBase。

在ProtobufUtil.toFilter打个断点,客户端执行Scan代码,即进入断点,看到成功在Server端生成了Filter。

进阶示例

让我们写个a+b=c的Filter,并且只返回一行。随便放些数据进去

f:a f:b f:v
row0 value0
row1 1 1
row2 2 2 value2
row3 3 value3
row4 4
row5 5 5 value5
row6 4 6 value6

更改Filter.proto,增加一个变量c,这个变量是要传给服务端的

message AnFilter {
    required int32 c = 1;
}

重新执行protoc编译命令,编译生成Filter。

修改Java的AnFilter,也增加上变量c,修改toByteArray把c设置进去、parseFrom再从byte[]里把c读出来。

public class AnFilter extends FilterBase {
    private int c;
    
    public AnFilter(int c) {
        this.c = c;
    }
    
    public byte[] toByteArray() {
        Filter.AnFilter.Builder builder = Filter.AnFilter.newBuilder();
        builder.setC(c);
        return builder.build().toByteArray();
    }

    public static AnFilter parseFrom(byte[] pbBytes) throws DeserializationException {
        Filter.AnFilter filter;
        try {
            filter = Filter.AnFilter.parseFrom(pbBytes);
        } catch (InvalidProtocolBufferException e) {
            throw new DeserializationException(e);
        }
        return new AnFilter(filter.getC());
    }

首先要找到a+b=c的行,找到qualifier是a,记录下值;找到qualifier是b,记录下值。a、b都找到了,判断下和是不是等于c,等于就返回ReturnCode.INCLUDE,把当前行找齐;否则跳过,返回ReturnCode.NEXT_ROW,继续找下一行。如果这一行还没找到a、b,还是得先返回ReturnCode.INCLUDE,不然这列就不会包含进去了。

private int sum;

private boolean hasA;
private boolean hasB;
private boolean foundC;

@Override
public ReturnCode filterKeyValue(Cell cell) throws IOException {
    String qualifier = Bytes.toString(cell.getQualifierArray(), 
                                      cell.getQualifierOffset(),
                                      cell.getQualifierLength());
    if ("a".equals(qualifier)) {
        sum += Bytes.toInt(cell.getValueArray(), cell.getValueOffset(), 
                           cell.getValueLength());
        hasA = true;
    } else if ("b".equals(qualifier)) {
        sum += Bytes.toInt(cell.getValueArray(), cell.getValueOffset(), 
                           cell.getValueLength());
        hasB = true;
    }
    if (hasA && hasB) {
        if (sum == c) {
            foundC = true;
            return ReturnCode.INCLUDE;
        } else {
            return ReturnCode.NEXT_ROW;
        }
    }
    return ReturnCode.INCLUDE;
}

那列都包含进去了,如果后面发现a+b!=c怎么办?没事,还有filterRow方法,没找到就返回true,把当前列过滤掉。

@Override
public boolean filterRow() throws IOException {
    return !foundC;
}

一行执行完成,要重置下临时状态。

@Override
public void reset() throws IOException {
    sum = 0;
    hasA = false;
    hasB = false;
}

找齐了这行就不继续找了,filterAllRemaining返回true。找到了a、b,不能直接返回true,因为可能还有其他列,filterAllRemaining是每个cell都执行的方法。所以在找齐一列的时候设置下值。

private boolean filterAllRemaining;
@Override
public void reset() throws IOException {
    ……
    filterAllRemaining = foundC;
}
@Override
public boolean filterAllRemaining() throws IOException {
    return filterAllRemaining;
}

打包放进HBase,重启HBase,客户端执行代码。

scan.setFilter(new AnFilter(10));

返回找到的那行。

row5    5   5   value5
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,132评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,802评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,566评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,858评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,867评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,695评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,064评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,705评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,915评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,677评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,796评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,432评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,041评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,992评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,223评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,185评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,535评论 2 343

推荐阅读更多精彩内容

  • 一、简介 Hbase:全名Hadoop DataBase,是一种开源的,可伸缩的,严格一致性(并非最终一致性)的分...
    菜鸟小玄阅读 2,364评论 0 12
  • 1、通过CocoaPods安装项目名称项目信息 AFNetworking网络请求组件 FMDB本地数据库组件 SD...
    阳明先生_x阅读 15,967评论 3 119
  • 日子一天天过去,步入社会也快一年多了,离开校园,离开父母,一个崭新的世界。经历了不同的生活,体验了人人平等的社会...
    搬砖不用手阅读 196评论 0 1
  • 归零Eno阅读 480评论 4 6
  • 也许,生活会时不时来点小插曲,似乎证明你还是活着的,太过平静,就如一摊死水,某时某刻,觉得,大致我们的一生就是这个...
    夏筱棉眠阅读 102评论 0 1