seq^3 Differentiable Unsupervised abstractive sentence compression 和 MeanSum : A Neural Model...

做的任务是句子压缩。
方法也和其他无监督方法一样就是构建重建损失。
对于要压缩的长度，作者的方法是用了带个超参，然后在超参间均匀采样，使用5保底，但是压缩的长度并不是直接截断而是超过压缩的长度的话有一个length的penalty。
几个loss比较有意思，首先作者在题目中说了是可微的，但是生成句子的时候有一个可读的句子采样的时候是不可微的，因此作者的放发就是采样的时候使用正常的采样，反向传播的时候使用gamble-max tricks或者是soft-argmax，这个方法还有一个术语叫straight-through estimator，前向传播的时候不使用这两个技巧是因为，这两种方法产生的都是embedding的mixture，利用了全局的信息，而且后面的时候还需要使用language model所以必须要是可以读懂的句子。
本文最大的创新点就是两个loss用的十分精妙，LM Prior Loss和Topic Loss，前者是生成词的时候计算和lm的kl散度，不直接使用一个language model初始化而是直接计算交叉熵相当于对language model进行了知识蒸馏，这样允许我们使用更大预训练好的language model，但是还有一个问题是language model生成出来的句子一般是最大似然的句子，因此作者引入了一个基于tf-idf的 topic loss，让topic联系的更加紧密，因此和lm损失形成了一个trade-off，理想情况下就是生成既通顺又符合主题的句子。
topic loss竟然是关键，因为topic loss起到的是一个引导程序的做阴，其他的loss在前期可能都因为smaple的效果太差了，所以找不到优化的方向，但是topic loss有引导作用，引导采样到一个很小范围内的单词
此外作者发现了一个很有意思的现象是seq3总是会倾向于复制源文章中前面几个单词，作者解释可能的原因是因为重建是自回归的，所有的后面单词的生成都要银行仰仗前面单词的生成，因此前面单词生成的对错至关重要，因此compressor更加倾向于直接复制前面的几个单词，这样reconstruer，所以这也印证了生成的时候第一个单词的生成总是最为重要的，他决定了从哪一个流行的附近开始生成接下来的单词。
问题：因为有重建损失所以差不多是大段落复制原始的文本。
感觉这个文章其实最大的贡献点是提出了topic loss这么一个东西，给embedding根据topic loss 加上attention，引导在sample中单词的选择，不加直接就爆跌了，反而language model没有很大的作用。

MeanSum : A Neural Model for Unsupervised Multi-Document Abstractive Summarization

上一篇是naacl19的这一篇是icml19的，感觉方法很类似，naacl给我的实验上的启发多一点，这个做了很多的实验分析（没有理论分析也能中icml）
两个都是做摘要的，不同的一点是上一篇是做单文档摘要的，这个是做多文档摘要的，这个主要用于比如说亚马逊上有很多商品的评价有好评有差评，然后将所有的好评和差评总结成一个摘要，这个样子。放一个例子，可以看到作者生成摘要的长度差不多是一个文本的长度因此没有必要做length penalty。
作者在contribution中argue的一点是强调自己与无监督机器翻译最大的不同是只有输入的需要总结的句子，连输出的语料都没有。
最主要的模型的图。需要注意的一点是里面的encoder和encoder共享参数，decoder和decoder共享参数，从直觉上来说，autoencoderReconstructionLoss强迫训练出一个比较好的encoder和decoder，然后后面的encoder和decoder也能受益
损失函数，就是一个重建损失和一个语义相似的损失，作者说了自己尝试过更换不同loss的比例但是效果不变。所以说基本上加了loss的都拟合了，并没有trade-off的情况

本文的亮点是`ablation study`做的很好。

首先是使用language model 初始化encoder和decoder重要吗？不是很重要，只是有轻微的下降，也就是说模型可以找到优化的方向，如果仅仅只用一个language model做摘要，也就是作者文中说到的no-training的方法相关度和情感一致性都很蹦。
有两个模型是完全崩了，一个是不使用auto-encoder，因为只要两个encoder学习到不管输入是什么东西统统输出一样的东西，那么相似度是最小的，因此学不到有用的东西，个人感觉还是监督信号太弱了，只用一个similarity当监督信号无法训练好一个encoder和decoder，还有一个模型是如果decoder的参数不共享那么不能映射到同一个语言空间，因此也崩了，decoder的参数不共享summary端训练不好，用gumbel softmax采样不好，反而相当于dropout，因此可以将encoder训练的很好，重建端的decoder训练的也很好，但是真实在测试的时候summary decoder端还是训练的不充分。

reconstruction 模型虽然能够work但是效果很差，作者认为是学习的难度太大了，尽管有Gumbel softmax但是梯度还是bias很大或者方差依赖于温度（尽管可以是退火的)，因为只有一个损失函数就是gumbel softmax因此很难优化，而且作者认为从一个平均的向量中重建出来所有的文档，这个任务本身就很难。

此时decoder不是训练的一部分了因此生成的句子很不流畅。

encoder不共享的时候效果是不变的，但是为了减少参数作者还是共享了参数，所以说decoder不共享会蹦，但是encoder不共享却没事。
各自的ppl

最后编辑于：2019.06.13 17:36:49

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,921评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,635评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,393评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,836评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,833评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,685评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,043评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,694评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,671评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,670评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,779评论 1赞 332
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,424评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,027评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,984评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,214评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,108评论 2赞 351
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,517评论 2赞 343

seq^3 Differentiable Unsupervised abstractive sentence compression 和 MeanSum : A Neural Model...

MeanSum : A Neural Model for Unsupervised Multi-Document Abstractive Summarization

本文的亮点是ablation study做的很好。

推荐阅读更多精彩内容

本文的亮点是`ablation study`做的很好。