大量短文本聚类效果优化：余弦相似度，Spark，Mini Batch Kmeans

1. 背景

1.1 问题概述

有10万+条短文本，均是用户反馈的问题（每条文本长度大概在200字左右），需要对这些文本进行主题聚类，看下用户反馈的问题都集中在哪些方面。

1.2 工作

先采用Spark MLlib自带的Kmeans聚类算法对文本进行聚类，因为其训练速度很快。这里我采用TF-IDF作为特征提取方法，Spark ML Kmeans中的距离计算方法为欧式距离。
运行之后发现效果不太好：某个类的数据量达到了70%，也就是大量的文章都被划分到了同一组，其他类的数量都较少。

如下图所示，对欧式距离的Kmeans和其他距离方法进行了对比，实验中表明欧式距离的结果中，本应属于不同组的大量文章被划分成了一组，与我这边的效果一致，因此接下来可以试着采用余弦相似度作为距离算法。

欧式距离和余弦相似度的实验效果，转载(http://xueshu.baidu.com/usercenter/paper/show?paperid=a3195f1409270d32f304145ce00e967e&site=xueshu_se)

2. 第一步优化：欧式距离改为余弦相似度

2.1 欧式距离和余弦相似度对比

定义两个n维向量：X(x1,x2,...,xn)和Y(y1,y2,...,yn)
欧式距离计算公式：

欧式距离

余弦相似度计算公式：

余弦相似度

欧式距离主要是衡量空间中两个点的绝对距离，而余弦相似度注重两个样本之间在方向上的差异而非距离上的差异，主要是衡量两个个体之间的相似性，值越大，说明差异越少，与欧式距离相反（距离越小，差异越小）。

欧式距离和余弦相似度对比

从上图可以看出，欧氏距离衡量的是空间各点的绝对距离；而余弦距离衡量的是空间向量的夹角，更加体现在方向上的差异，而不是位置。如果保持 A 点位置不变，B 点朝原方向远离坐标轴原点，那么这个时候余弦距离是保持不变的（因为夹角没有发生变化），而 A 与 B 两点的距离显然在发生变化，这就是欧式距离与余弦相似度的不同之处。

2.2 开发基于Spark和余弦相似度的Kmeans聚类

由于Spark ML中的Kmeans不提供对距离函数进行更新和选择的接口，因此只能按照Kmeans的原理开发，和在GitHub上借鉴已有的代码修改开发。
这里有个小技巧，由于余弦相似度越大，两个体之间的差异越少，所以为了保证在计算每个样本所属的最近的中心点的时候与欧式距离一致，这里在计算两个体之间距离的时候采用如下方法计算：
（代码框架参考基于欧式距离的Scala实现的Kmeans，基于该代码修改为Spark和余弦相似度距离。https://blog.csdn.net/u014135021/article/details/53668634）

 /**求两个向量的余弦,1-相似度，结果越大 差异越大，越小差异越小 */
  def cos_distance(that: Point) = {
    val cos = 1- innerProduct(this.px, that.px) / (module(this.px) * module(that.px))
    cos
  }
 /** 求两个向量的内积*/
  def innerProduct(v1: Vector[Double], v2: Vector[Double]) = {
    val listBuffer = ListBuffer[Double]()    
    for (i <- 0 until v1.length; j <- 0 to v2.length; if i == j) {
      if (i == j) listBuffer.append(v1(i) * v2(j))
    }
    listBuffer.sum
  }

3. 第二步优化：Scala代码改成Spark

如下为Spark的Kmeans主题的聚类迭代部分
其中初始化随机中心点的方法为：

takeSample(withReplacement: Boolean,num: Int,seed: Long = Utils.random.nextLong): Array[T]

其中参数：

withReplacement：是否是有放回的抽样
num：返回的样本的大小
seed：随机数生成器的种子

  //kmeans函数运行主体
  def run(sc:SparkContext)
  {
  
    var k=0 //当前迭代次数
    var f=true //是否还需要接着迭代
    val st=System.nanoTime()
    //设置随机种子
    val seed = 10000l
    val random = new java.util.Random()
    random.setSeed(seed)
    InitCenterRandom(random)//随机初始化中心点
    while(k<MaxIterations && f)
    {
      val st1 = System.currentTimeMillis()
      k+=1
      //计算每个点属于哪个中心点所在的类，并且记录每个类中点的数量，与该类中所有向量的和        
      val data_with_center = data.map(x => {
        var cid = FastSearch2(x._2).center_id
        (x._1,x._2,cid)
      })
      data_with_center.cache()
      //按照类别ID分组
      val result_groupby:RDD[(Int, Iterable[(X,Point,Int)])] = data_with_center.groupBy(_._3) 
      result_groupby.cache()
      result = result_groupby.map(x => {
        val center_datas = x._2.map(_._1).toList
        (x._1,center_datas)
      })
      //按照中心点相同groupby
      val newPoints = result_groupby.map(x => {
        val cid = x._1
        val center_datas = x._2
        val center_data_size:Int = center_datas.seq.size.toInt
        //计算该中心点下所有数据的Point向量和
        val totalPoint:Point = center_datas.map(_._2).reduce((x,y) => (x+y))
        //新的中心点为该类别下样本向量和的平均值
        val newPoint:Point = totalPoint./(center_data_size)
        (cid, newPoint)
      })
      newPoints.cache()
      val newPoints2 = newPoints.collect()
      result_groupby.unpersist()
      data_with_center.unpersist()
      var i = -1
      //如果当前中心点中，存在比上一次迭代的中心点的距离大于阈值的情况，还需要接着迭代。
      f = CenterPoint.map(x => {
        i = i+1
        (i, x)
      }).zip(newPoints2).map(f=>f._1._2.cos_distance(f._2._2)).exists {_>threshold}
      
      //更新中心点
      if(f)
      {
        newPoints2.map(x=> {
          if(x._2 != null) {
            CenterPoint(x._1) = x._2
          }
        })
      }
      val et1 = System.currentTimeMillis()
      println("第"+k+"次聚类,sse=" + getSSE(sc,data) + ",time=" + (et1-st1)/1000+"s")
      newPoints.unpersist()
      System.gc()
      
    }
    val ed=System.nanoTime()
    //data.unpersist()
    println("Kmeans聚类时间为:"+(ed-st))

  }

/*根据随机种子对象，初始化中心*/
def InitCenterRandom(random:java.util.Random) {
    val st=System.nanoTime()    
    val random_seed = random.nextLong()
    CenterPoint = data.takeSample(false, numClusters, random_seed).map(_._2)
    val ed=System.nanoTime()
    println("随机中心点生成时间为："+(ed-st))
  }

4. 第三步优化：大数据量的Mini Batch Kmeans

上述的Kmeans算法在大数据量的情况下，运算依然很慢，因此采用KMeans的变种：Mini Batch Kmeans算法，当数据量超过1万的时候就可以使用该方法。该方法不仅处理速度快，准确度也很高。其实现原理是每次迭代的时候，选取部分样本来更新当前迭代的中心点。这种分批处理的思路同样也被应用在了梯度下降等算法中。

如下图为摘自链接：https://blog.csdn.net/cht5600/article/details/76014573
将Kmeans算法与Mini Batch Kmeans算法的聚类结果对比，第三幅图代表两种方式分类差异的样本：

Kmeans & MiniBatchKMeans

从图中可以知道，针对同样数量的文本分别采用Kmeans和Mini Batch Kmeans训练，其时间差别较大，且inertia相差较少。

inertia：样本离最近聚类中心的总和,其是K均值模型对象的属性，表示样本距离最近的聚类中心的总和，它是作为在没有真实分类标签下的非监督式评估指标，该值越小越好，值越小证明样本在类间的分布越集中，即类内的距离越小。

因此，该方法在尽量保持准确度的情况下，大大减少了聚类时间。在本次实验中采用10万样本，选取1000维特征，每次选取1000个样本迭代，每次迭代仅需要1分钟。
如下为Mini Batch Kmeans的迭代部分,大部分逻辑与上面的Kmeans一致，只有在每次迭代的选取的样本不同：

//kmeans函数运行主体
  def runBatch(sc:SparkContext)
  {
    
    var k=0
    var f=true
    val st=System.nanoTime()
    //设置随机种子
    val seed = 10000l
    val random = new java.util.Random()
    random.setSeed(seed)
    InitCenterRandom(random)//随机初始化中心点

    while(k<MaxIterations && f)
    {
      val st1 = System.currentTimeMillis()
      k+=1
      //堆积选取MiniBatchSize个样本 转成RDD
      val data_batch = sc.parallelize(data.takeSample(false,ConfigUtil.MiniBatchSize,random.nextLong()))
      data_batch.cache()
      val data_with_center = data_batch.map(x => {
        var cid = FastSearch2(x._2).center_id
        (x._1,x._2,cid)
      })
      data_with_center.cache()
     val result_groupby:RDD[(Int, Iterable[(GovComment,Point,Int)])] = data_with_center.groupBy(_._3)
      result_groupby.cache()
      result = result_groupby.map(x => {
        val center_datas = x._2.map(_._1).toList
        (x._1,center_datas)
      })
      //按照中心点相同groupby
      val newPoints = result_groupby.map(x => {
        val cid = x._1
        val center_datas = x._2
        val center_data_size:Int = center_datas.seq.size.toInt
        //计算该中心点下所有数据的Point向量和
        val totalPoint:Point = center_datas.map(_._2).reduce((x,y) => (x+y))
        val newPoint:Point = totalPoint./(center_data_size)
        (cid, newPoint)
      })
      newPoints.cache()
      val newPoints2 = newPoints.collect()
      result_groupby.unpersist()
      data_with_center.unpersist()
      var i = -1
      f = CenterPoint.map(x => {
        i = i+1
        (i, x)
      }).zip(newPoints2).map(f=>f._1._2.cos_distance(f._2._2)).exists {_>threshold}

      if(f)
      {
        newPoints2.map(x=> {
          if(x._2 != null) {
            CenterPoint(x._1) = x._2
          }
        })
      }
      println("第"+k+"次聚类,sse=" + getSSE(sc,data_batch) + ",time=" +(System.currentTimeMillis()-st1)/1000+"s")
      newPoints.unpersist()
      System.gc()
      data_batch.unpersist()
    }
    val ed=System.nanoTime()
    //data.unpersist()
    println("Kmeans聚类时间为:"+(ed-st))

  }

5. 总结

针对短文本聚类，可以在条件允许的情况下提高特征维度；
Spark Accumulator累加器的使用注意；
采用Mini Batch Kmeans可以尽量维持聚类准确度；
文本上面相似，余弦相似度效果相对欧式距离好些。

6. 参考

最后编辑于：2019.01.30 15:04:39

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,602评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,442评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,878评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,306评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,330评论 5赞 373
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,071评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,382评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,006评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,512评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,965评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,094评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,732评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,283评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,286评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,512评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,536评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,828评论 2赞 345