Exploiting Distributional Semantics to Benefit Machine Learning in Automated Classification of Chinese Clinical Text

本文为A丶Flash的学习笔记，对Exploiting Distributional Semantics to Benefit Machine Learning in Automated Classification of Chinese Clinical Text进行阅读后的总结，对其中部分内容进行了简单概述。如发现表述不当之处，还希望大家多多指点。

摘要：

机器学习技术已经被广泛的应用于针对临床文本的自动分类问题，这有助于进一步使用临床文本信息和临床应用开发。然而，在机器学习算法中，对文本进行向量表示的传统方法没有对近义词之间的关系进行建模，而且，其向量维度较高。本文提出将语义分布和监督学习分类算法相结合来解决这些问题。采用Latent Semantic Analysis，Random Indexing 和 word2vec来进行语义分布表示，使用SVM，Naive Bayes，和k-Nearest Neighbors 来构建分类器。作为初步研究，本文采用中文诊断短语作为临床文本进行分类，使用30digit ICD-10作为类别标签。评估结果表明语义分布表示可以更好的捕捉文本的语义，能够在训练数据和测试数据属于不同的数据源，相同词较少时，提高临床文本的分类精度。因此，语义分布可以提高分类器在临床文本分类问题中的扩展性。

1.INTRODUCTION

临床记录文本具有许多丰富的来源。针对临床文本的自动分类可以将叙述性的文本转换成结构性文本，从而可以进一步的使用临床信息。这样的过程就包括将文本划分到预先定义好的类别中。

在这之前，针对临床文本进行自动分类问题的研究已经有很多了。大部分研究都采用机器学习的方法来解决这一问题。利用人为标记好的文本对分类器进行训练，根据参考标准对分类器进行测试。训练过程中，将文本转换成用数字组成的向量。分类器通过表示文本的向量对文本进行分类。在大多数研究中，词语作为向量的特征，词语的个数作为向量维度。不同的词表示不同特征。然而，这种表示方法没有考虑同义词，将同义词或者意思相近的词作为不同的特征；另一个不足是，这种表示方法将导致向量维数较高。所以，使用传统方法对文本进行向量表示没有对意思相近的词进行建模，而且向量维度较高。语义分布方法可以解决这两个问题。

语义分布模型可以根据上下文中出现的相同的词对某一词的意思进行学习。从文本中学习到的语义可通过语义空间中的向量进行表示。意思相近的词用语义空间表示的向量，二者之间的距离更近。采用语义分布来进行文本表示不仅可以对近义词进行建模，而且向量维度更低。

2 BACKGROUND

A.Distributional Semantic Models

语义分布模型假设具有相同上下文的词具有相近的意思，由此来表示词的语义。在给定的语料库中，构建共生矩阵M，维度为n*n，n是词表中词的个数。矩阵中每个元素表示相对应的两个词在预先定义的窗口中出现的次数。经过编码，M中每一行可作为该词的语义表示。M的维度较高，并且包含有用信息和噪声，可用过降维方法来解决这两个问题。降维和去噪的方法采用了LSA和Random Indexing。

M中可能存在某些词出现频率很高，但表达的信息很少。通过对M中元素设置权重来解决上述问题。本文用到了Positive Pointwise Mutual Information。PPMI计算过程如下：

除了上述两种传统的语义分布方法，本文还采用了word2vec进行测试。

B Machine Learning Techniques for Automated Text Classification

本文分类器采用了SVM，Naive Bayes，k-Nearest Neighbor进行测试。

3.METHODS AND MATERIALS

A.Vector Representations of Text based on Distributional Semantics

这里主要是将bag-of-word和语义分布进行向量表示进行了对比。bag-of-word方法在文字层面上，可以较好的反映原始文本的信息。但这种方法没有考虑近义词，将近义词作为独立的特征。利用语义分布进行表示，文本向量由各个词的语义向量通过线性求和得到。每个词的语义向量训练采用了不同的方法，在PPMI加权后分别使用LSA, RI；使用CBOW模型的word2vec。

B. Data Sources

本文搜集了54136住院病人的出院小结作为语料库来获得语义分布。

使用两个数据集进行分类器性能评估。第一是标准诊断库(standard diagnostic library)，由22000标准的诊断短语和相应的ICD-10编码类别。第二个是78523条医院实例，每条实例由诊断词和ICD-10便签构成。

C.Evalueation on Vector Representations of Text

在将语义向量应用于分类前，本文测试了语义向量是否能比bag-of-word能够更好的表达文本的意思。搜集到的79532条实例可以根据ICD-10进行分类。处于同一类中的实例具有较高的相似性。利用向量进行聚类的正确性来评估该向量表示方法能否正确捕捉诊断的意思。

D.Evaluation on Automated Text Classification

本文的分类评估采用两种方式。第一种是采用5-fold的交叉验证。交叉验证中训练集和测试集是一致的；第二是采用SDL用作训练集，采用历史的实例作为测试集进行测试。第二种数据差异较大。

4.Result and discussion

A.Performance of Vector Representations of Text

利用语义向量对bag-of-word向量进行代替，是在假设语义向量能够更好的捕捉文本的意思。利用诊断短语向量进行聚类的正确率可以用于证明该假设成立。聚类结果如Table 1.

B.Performance of Automated Text Classification

从表2可以发现，交叉验证中，三个语义方法不如bag-of-word方法的精度高。原因可能是来自交叉验证。交叉验证中，训练数据和测试数据是来自同一数据集，训练数据和测试数据具有一致性。因此，表达同一个意思的词只有几个，甚至只有一个。这并没有发挥语义向量针对同义词的优势。此外，文字信息可能已经足够用于分类器进行训练，在测试集中进行预测。

表3的结果是使用SDL用于训练，使用历史实例用于预测。从表中可以看到，语义方法获得了更好的分类结果。该测试结果表明语义分布方法在训练数据和测试数据差异较大时，能够使分类精度得到提升。本文采用词在训练集和测试集出现的比例来衡量数据的一致性。SDL和历史实例的平均比例为96.2%，交叉验证的比例为90.97%。

使用语义向量进行分类，错误来源的讨论。

文章最后，作者给出了结论，这里就不在赘述。

最后编辑于：2017.12.11 03:22:44

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,126评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,254评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,445评论 0赞 341
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,185评论 1赞 278
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,178评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,970评论 1赞 284
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,276评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,927评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,400评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,883评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,997评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,646评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,213评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,204评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,423评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,423评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,722评论 2赞 345