论文 | 《Deep Pyramid Convolutional Neural Networks for Text Categorization》DPCNN文本分类模型介绍

一 写在前面

未经允许,不得转载,谢谢~~

这篇主要是我这学期深度学习课程的作业,所以选了一篇NLP方向的简单学习一下。接下来有时间的话再整理一篇关于用DPCNN模型在AG news数据集上进行新闻类别分类任务的实验复现情况~~~

文章基本信息:

这篇文章的主要任务是做文本分类的,主要贡献在于提出了一个简单有效的深度金字塔神经卷积网络DPCNN模型。

关键词:text categorization, DPCNN;

二 基本背景介绍

1. 任务描述

  • 文本分类是一个十分重要的任务,其应用场景包括垃圾邮件检测,情感和主题分类等。
  • 近几年,神经网络利用词序进行文本分类的方法非常有效。最早是简单的浅层卷积神经网络,最近提出了更为复杂的深层神经网络,需要大概一百万的文档作为训练数据;

2. 论文动机

  • 之前的实验已经证实单词级别的CNNs比字符级别的CNNs能更有效表达信息;
  • 论文作者想为文本分类任务设计一个高效的深层单词级别的 CNNs 架构;
  • 所以文章提出了一个DPCNN深层金字塔卷积神经网络,至于为什么叫深层金字塔以及这个模型有哪些优点会在接下来的模型结构分析中给出解释。

三 模型及方法介绍

1 DPCNN模型简介

先来看一波模型结构图:


DPCNN模型结构

我们自下而上看网络的处理过程:

  1. 输入一个句子"a good buy. ”, 先不管虚线框内的'unsupervised embedding'部分,直接到网络的第一个文本区域嵌入层 ( region embedding) ,这个层就是用在自然语言领域通常使用的词嵌入 (word embedding) 方式为句子中的每个词都生成向量表示;
  2. 在得到文本的向量表示之后,将这些特征向量依次输入到后面的卷积块中进行卷积操作提取文本信息,每个卷积块都由两个卷积层以及从输入直接到输出的 shortcut 残差连接构成。而卷积块与卷积块之间又由步长为 2 的池化层进行连接。
  3. 网络模型的最后一个池化层用于接受最后一个卷积块的输入(模型中所有的池化层均采用max pooling),最终得到表示文本的特征向量。

注: 关于文中的unsupervised embeddng层是作者使用的一种训练技巧,对整个网络影响不大,关于具体的细节我看的不是很懂,从实验复现的情况来看这个部分的影响应该也不是很大,所以就不在这里描述了,这个部分感兴趣的可以去看一看原文(o゚▽゚)o

我们从网络层的设计情况也分析可以得到DPCNN 的关键特性

  1. 在特征图维度固定的情况下降采样
    • 在每个卷积块之后都用大小为 3 的卷积核进行步长为 2 的最大池化操作。这样既可以得到相邻3个文本区域的中间特征表示,步长为2的池化操作又将每个文本的中间表示直接减少了一半。
    • 很多现有模型都会在降采样的过程中增加特征图的维度,这会直接影响模型的计算复杂性。文章发现这些增加的维度除了增大计算复杂度外并没有带来模型准确度上的提升,因此文章采用了保持特征图维度不变(channel_size=250)的方式。
    • 在此基础上,每次进行补偿为2的降采样操作都会导致卷积层的操作时间直接减半,这也是为什么本文将之称之为金字塔 (pyramid) 卷积神经网络的原因。如下图 2所示即为金字塔计算时间示意图。
    • 基于以上的原理,DPCNN 网络模型能够保证总的计算时间也是固定不变的,其值等于单个卷积块计算时间的两倍,这在计算时间上非常具有友好性。
    • 另外,步长为2的降采样操作可 以是得卷积操作的有效覆盖面积加倍。具体来说,经过 L 次这样的降采样操作后可以建立 起相邻 2L 个单词之间的联系得到特征表示。
    • 因此,DPCNN 模型不仅在模型计算上具有有 效性,还能更好的表示长距离的关系,从而学习到更多的全局信息。
金字塔计算时间
  1. 使用shortcut,且不需要做维度匹配:
    • 在卷积块的设计中使用了 shorcut连接的方式,使得网络可以扩展为深层网络进行参数的训练。
    • 虽然 shortcut 的用法是从 ResNet中借鉴过来的,但是 DPCNN模型比 ResNet 更加简单,因为 DCPNN 中的 shortcut 连接接近等值连接, 这个过程不需要做任何的维度匹配工作。
    • 在DPCNN中,当 shortcut 碰上主流 (main street) 的时候,两边的数据维度是一样的,所以可以直接进行相加操作。当 shortout 中使用了类似于降采样等其他不同维度的特征图的时候就需要面临维度不匹配的问题,通常情况下需要在相加之前进行维度增加工作,这就会导致网络训练参数的增加和计算量的增大。
    • 所以本文采用固定维度且不在卷积块内部采用降采样的方式,避免了维度不匹配以及由于维度不匹配带来的 网络参数增加的问题。整个网络会比较简单而且计算高效。

2 文本区域嵌入

这个部分我省略了unsupervised embedding的部分。

基于 CNN 卷积神经网络的文本分类方法通常从词嵌入(word embedding),即将文本中的每个单词转换为向量这一步工作开始。本文采用了一种更加通用的文本区域嵌入(region embedding)方法。

在区域嵌入层 (region embedding) 为文档中的每一个单词都计算 Wx+b,其中 x 表示 k个单 词的区域,权重参数 W 以及偏置参数 b 都由神经网络训练学习得到。定义 v 为单词词汇库的大小,即单词个数,那么对于 k 个单词区域具有如下三种典型的表示方法:

  1. 顺序输入:由 k 个单词的 one-hot 形式的向量 (维度为 v) 堆叠而成;
  2. 词袋模型:由 v 维的词袋向量构成;
  3. n-gram 模型:由区域中的单个词、两个词组或者三个词组构成的词袋表示;

用顺序输入的区域嵌入方式跟直接将一个卷积层应用在一系列 one-hot 向量上来表示一个文 档的效果是一样的。当k设置为1,即只有一个单词的时候,以上三种方式都退化成词嵌入。

区域嵌入层旨在获取比单个独立单词更加更复杂的语义信息,因此也有一些网络会用多层卷积来提取词嵌入中的特征,但通常情况下更少的层数意味着网络更加容易优化。

除此之外,最佳输入类型和最佳的区域大小只能通过经验来判定。

四 写在最后

我的方向是CV的,虽然选择了一篇结构和方法都较为简单的论文,但是也不能保证没有解读有偏颇甚至是错误的地方,路过的NLP大佬们还请多多包涵嘻嘻~~

有什么不对的欢迎评论或者简信,感谢。

文章在AG news上复现的实验能够达到91.49%的准确度,所以后面准备再整理一篇具体的实验过程的博客,欢迎关注喽ヾ(◍°∇°◍)ノ゙

最后感谢阅读~~~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,189评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,577评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,857评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,703评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,705评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,620评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,995评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,656评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,898评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,639评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,720评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,395评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,982评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,953评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,195评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,907评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,472评论 2 342

推荐阅读更多精彩内容