陆-余弦距离以及分词等无聊实宜的Java实现

1、起源

因为一个叫做谭翠平的女人的懒惰,使得另外一个更懒惰的人(我)作出了如此无聊的事情。
而这件事情呢,就是要把一堆题目里面找出重复的然后删掉,有人会问,为什么不在Excel里面去重就行了呢?看到下面这图就懂了:

恶心的题目

明显发现即使删掉逗号问号等题目来去重,有些重复题目也是不能直接去重的。

2、思考出路

既然这样下去不行,那么该如何做了呢?
忽然想起之前看过一篇文章介绍过网易云音乐的推荐算法,里面有一个 余弦相似度_百度百科使我惊为天人!
我可以通过题目的各个关键字作为一个维度来计算不同题目的余弦相似度,然后判断相似度比较高的题目就可以定为相同的题目!不是么!?

3、需要思考的人生不止 - 分词的Java实现

对于中文分词,我以前用JS的时候是做过的,Java下有许多分词包。但问题来了,我该选用哪个呢?
诶,有一个介绍哦!还有评分呢~
二话不说先选速度评分第二(HanLP,别问我不选第一,因为那个我不会用)的来用,使用效果如下:

很不错哦!

但!忽然发现一个问题,这个包的字典是需要另外下载一个100M左右的字典,虽然这不是硬伤但我还是觉得很懒惰,所以选用了另外一个大小为22M的包ansj分词器自定义字典比较方便,而且直接能用)。

使用效果

我觉得其实,差不多,但这个比HanLP有个不足之处就是,空格下划线等判断词性为Null,而且加载速度比较慢(虽然不是硬伤啦)。
另外还有一个问题,对于专业名词之类的肯定得需要自建字典的,这个官网上有详细介绍,可以后续再弄。

至此,分词完毕。

4、余弦相似度。

我是根据关键词词频进行计算的,具体公式可以看 余弦相似度_百度百科,大概思路如下:

好长啊....

具体代码如下:

    /**
     * @param alstrSpltiWord    第一题关键词数组
     * @param alintWordFrq      第一题关键词词频数组,与关键词位置对应
     * @param alstrSpltiWordIn  第二题关键词数组
     * @param alintWordFrqIn    第二题关键词词频数组,与关键词位置对应
     * @return  返回double类型变量,范围为 0-1 的余弦相似度
     */
    double cosineSimilarity(ArrayList<String> alstrSpltiWord, ArrayList<Integer> alintWordFrq,
            ArrayList<String> alstrSpltiWordIn, ArrayList<Integer> alintWordFrqIn) {
        //定义计算中间值及结果
        double fResult = 0;
        double dA = 0;
        double dB = 0;
        double dAB = 0;
        //定义两题关键字并集的关键字位置及各题对于这些关键字的词频
        Map<String, Integer> msHasWord = new HashMap<>();
        int intHWNum = 0;
        ArrayList<String> asCheckWord = new ArrayList<>();
        ArrayList<Integer> aiCehckOne = new ArrayList<>();
        ArrayList<Integer> aiCehckTwo = new ArrayList<>();
        //把第一题的词频导入并集,并生成第一题的词频
        for (int intI = 0; intI < alstrSpltiWord.size(); intI++) {
            String strEle = alstrSpltiWord.get(intI);
            if (!msHasWord.containsKey(strEle)) {
                msHasWord.put(strEle, intHWNum);
                intHWNum++;
                asCheckWord.add(strEle);
                aiCehckOne.add(0);
                aiCehckTwo.add(0);
            }
            aiCehckOne.set(msHasWord.get(strEle), alintWordFrq.get(intI));
        }
        //对第二题进行处理
        for (int intI = 0; intI < alstrSpltiWordIn.size(); intI++) {
            String strEle = alstrSpltiWordIn.get(intI);
            if (!msHasWord.containsKey(strEle)) {
                msHasWord.put(strEle, intHWNum);
                intHWNum++;
                asCheckWord.add(strEle);
                aiCehckOne.add(0);
                aiCehckTwo.add(0);
            }
            aiCehckTwo.set(msHasWord.get(strEle), alintWordFrqIn.get(intI));
        }

        //进行计算
        for (int intI = 0; intI < asCheckWord.size(); intI++) {
            dAB += aiCehckOne.get(intI) * aiCehckTwo.get(intI);
            dA += Math.pow(aiCehckOne.get(intI), 2);
            dB += Math.pow(aiCehckTwo.get(intI), 2);
        }
        fResult = dAB / (Math.pow(dA, 0.5) * Math.pow(dB, 0.5) + 1E-20);

        //输出
        System.out.println("---------------------");
        System.out.println(alstrSpltiWord);
        System.out.println(alstrSpltiWordIn);
        System.out.println(asCheckWord);
        System.out.println(fResult);
        System.out.println(aiCehckOne);
        System.out.println(aiCehckTwo);

        return fResult;
    }

5、桥接处理

因为我打算是做一个JSP然后用一个500M内存的VPS去跑的,所以我把题目全部从CSV上读取到MongoDB里面去,然后再从MongoDB里面导出所有未处理的题目进行处理。本来打算减少内存消耗只是消耗硬盘,但总感觉其实MongoDB也是耗内存的。
我在自己的电脑上跑就发现内存占用得很厉害,我害怕在VPS上跑会跑死那台机子,不过那些东西,God Knows~

6、效果

因为余弦相似度达到多少我算是相似呢?其实我只是拍脑袋写了个80%,但我总觉得感觉还是挺好的,以下为部分结果:

较好的判断出相同题目:
第1组

第2组

第3组
有争议的判断:
第1组
错误的判断:
第1组

第2组

7、改进

其实我觉得不用改进了啦,但实际说需要改进的话,我觉得可以从两点着手:

  1. 自定义字典
    对于通信专有名词是必须要进行自定义词典(或许可以用HanLP,里面有新词发现,但考虑效率及硬件开销方面还是自建字典比较稳妥);
  2. 专有名词词频加权
    从上述题目看到例如“MME的具体作用及接口”“SGW的具体作用及接口”里面的MME以及SGW被其他关键词被抹消了,但其实这两个才是重点,后续可以在计算词频的时候把相应的关键字给加个权。

8、后续

这个历时3天(你需要给点面子初学者呵)的东西终于做完了,但是大部分都是测试代码,后面肯定需要重写,并且写在JSP里面(方便别人上网使用),那以后的事情就以后再说了。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,242评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,769评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,484评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,133评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,007评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,080评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,496评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,190评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,464评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,549评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,330评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,205评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,567评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,889评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,160评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,475评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,650评论 2 335

推荐阅读更多精彩内容