Android离线敏感词校验

本文资源来自:https://github.com/k5h9999/keywordfilter
作者: k5h9999
说明:基于分词原理修改写的一个过滤敏感词库,可以改成动态,本敏感词收集了4W多个违法词、敏感词、违禁词,几十个矫正词、变异词。

最近做Android项目用到敏感词校验功能,原本想到用在线检测功能,不过太依赖于网络,而且校验服务器也不一定能一直开通,于是想到了找一下离线库。

文章开头的链接是作者为Java写的代码,我稍加修改,将其用到了我的Android项目中。感谢原作者的分享。
下面是步骤:

1.将词库放到项目中

将上述项目文件src\main\resources\META-INF\dic目录中的两个文件:fqc.dicwfc.dic解压缩,放到Android项目的assets资源文件夹中。如果Android项目中没有这个文件夹,在main目录下自己新建即可。

2.修改代码适配Android

作者的原项目中只有两个类,WordFilterKeyWordFilter,其中在WordFilter类中持有对KeyWordFilter的引用。
我们打开KeyWordFilter,找到main方法,查看用法,发现里面有这样的代码:

public static void main(String[] args) {
    String str = "一个网站就像一个人,存在一个从小到大白粉的过程。养一个网站和养一个人一样,不同时期漂白粉需要不同的方法,口交--不同的方法下有共24口交换机同的原则。";
    Long startTime = System.currentTimeMillis();
    WordFilter wf = new WordFilter();
    //WordFilter.filter_search(String) 方法是从字符串中删除敏感词后返回结果
    System.out.println(wf.filter_search(str));
    //WordFilter.filter_jk_info(String)方法是将敏感词标记出来
    System.out.println(wf.filter_jk_info("一个网站就像一个人"));
    Long endTime = System.currentTimeMillis();
    System.out.println("时间:" + (endTime - startTime));
}

我们找到filter_jk_info方法,查看其实现:

public String filter_jk_info(String content){
    return kwf.filter_jk(content,"0","0","<font color=#ff0000>","</font>","<font color=#00ff00>","</font>");
}

再转到filter_jk方法,发现这里就是核心算法。对比结果发现,此方法是将敏感词用html标签标记为红色和绿色。
我们直接尝试调用会报空指针异常。跟随异常信息,发现原来是读取词库的时候,数据流报空指针错误:
KeyWordFilter.java

private HashMap<String, String> getWordMap(String dicPath, String replace) {
    InputStream is = null;
    HashMap<String, String> wordMap = new HashMap<String, String>();
    try {
        //就是下面这一行返回的is为空
        is = KeyWordFilter.class.getResourceAsStream(dicPath);       
        if (is == null) {
            System.out.println(dicPath + " not found!!!");
        }
        BufferedReader br = new BufferedReader(new InputStreamReader(is,
                "UTF-8"), 512);
        String theWord = null;
        //
        //    省略部分代码
        //
}

首先将词库文件的全局变量路径修改为:

public static final String PATH_DIC_WFC = "wfc.dic";
public static final String PATH_DIC_FQC = "fqc.dic";

然后将空指针那一行代码改成:

is = App.getContext().getResources().getAssets().open(dicPath);

其中App.getContext()是自定义Application中的方法,自己添加即可。
这样就获取到了assets目录下的文件,并返回了InputStream

最后,就可以调用了。

WordFilter mKeywordFilter = new WordFilter();
String s = mKeywordFilter.filter_jk_info2(content);

filter_jk_info2方法的返回值为:

  • 如果没有敏感词,返回原文;
  • 如果有敏感词,返回将敏感词标记后的字符串,标记规则在KeyWordFilter.filter_jk方法中。
    所以,我们可以修改filter_jk_info方法如下:
public String filter_jk_info(String content) {
    return kwf.filter_jk(content, "0", "0", "<mgc>", "</mgc>", "<mgc>", "</mgc>");
    }

然后判断返回值s是否包含<mgc>标签即可。

总结修改

WordFilter.java

public String filter_jk_info2(String content) {
    return kwf.filter_jk(content, "0", "0", "<mgc>", "</mgc>", "<mgc>", "</mgc>");
    }

KeyWordFilter.java

public static final String PATH_DIC_WFC = "wfc.dic";
public static final String PATH_DIC_FQC = "fqc.dic";

private HashMap<String, String> getWordMap(String dicPath, String replace) {
    InputStream is = null;
    HashMap<String, String> wordMap = new HashMap<String, String>();
    try {
        is = App.getContext().getResources().getAssets().open(dicPath);
        if (is == null) {
            System.out.println(dicPath + " not found!!!");
        }
        BufferedReader br = new BufferedReader(new InputStreamReader(is,
                "UTF-8"), 512);
        String theWord = null;
        //
        //    省略部分代码
        //
}

使用:

private WordFilter mKeywordFilter;
@Override
protected void onCreate(@Nullable Bundle savedInstanceState) {
    // 省略部分代码
    mKeywordFilter = new WordFilter();
    //因为内部是静态对象,所以这里先调用一次生成实例,后面可以加速查找过程,懒得改源码了
    new Thread(() -> mKeywordFilter.filter_jk_info2("初始化")).start();
}
public void checkContent(){
    String s = mKeywordFilter.filter_jk_info("测试内容");
    if(s.contains("<mgc>") || s.contains("</mgc>")){
        //包含敏感词的操作
    }    
}
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 200,612评论 5 471
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,345评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 147,625评论 0 332
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,022评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,974评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,227评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,688评论 3 392
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,358评论 0 255
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,490评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,402评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,446评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,126评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,721评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,802评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,013评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,504评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,080评论 2 341