NLP简报

本文首发于微信公众号：NewBeeNLP

欢迎来到 NLP 时事简报！涵盖了诸如特定语言 BERT 模型、免费数据集、深度学习库等主题。

1、Publications 📙

1.1 Language-specific BERT models

我已经记不清现在有多少种特定语言的 BERT 模型了，这里有一些最新的版本:

荷兰语 Dutch BERT（RobBERT[1]| BERTje[2]）

德语 German BERT[3]

葡萄牙语 Portuguese BERT[4]

法语（CamemBERT[5] | FlauBERT[6]）

意大利语（AlBERTo[7] | UmBERTo[8]）

西班牙语（BETO[9]）

阿拉伯语（araBERT[10]）

大多数这些模型也可以通过 huggingFace 的Transformer 库[11]获得，该库最近升级到了2.4.1[12]。

1.2 Overly Optimistic Prediction Results on Imbalanced Data: Flaws and Benefits of Applying Over-sampling

这篇论文[13]揭示并广泛讨论了在对数据集进行划分之前应用过采样来处理不平衡数据集的缺点和优点。此外，该工作复现了先前的研究，并确定了导致过于乐观的结果的方法论缺陷。

1.3 Encode, Tag and Realize: A Controllable and Efficient Approach for Text Generation

为了减少基于 seq2seq 的文本生成方法中常见的 hallucination [14]（产生输入文本不支持的输出）的影响，Google 工程师公开了一种称为LaserTagger[15]的文本生成方法。该方法的主要思想是通过使用预测的编辑操作（例如KEEP，DELETE-ADD等）标记单词并在所谓的realization step中将其应用于输入单词来产生输出。

这代替了通常只从头生成输出的文本生成方法，这种方法通常很慢而且容易出错。该模型除了产生更少的错误外，还提供了其他好处，例如，在进行少量训练示例的情况下，可以在实现并行预测的同时进行编辑操作，同时仍保持良好的准确性并优于 BERT baseline。

1.4 Convolutional Neural Networks as a Model of the Visual System: Past, Present, and Future

1.5 Multilingual Denoising Pre-training for Neural Machine Translation

1.6 On improving conversational agents

Meena[18]是一种 neural conversational agents，旨在进行更明智和更具体的改进对话----定义为从人类对话中捕获重要属性（例如，流畅度）的指标。该模型通过编码器学习会话上下文，并通过解码器制定合理的响应。据报道，通过考虑使用更强大的解码器可以提高通话质量。

你也可以了解更多 Alan Nichol（Rasa HQ 的联合创始人）关于这项工作的想法[19]。

2、Creativity and Society 🎨

2.1 ML tools — reading comprehension test and sentiment analyzer

2.2 A Self-Taught AI Researcher at Google

在这个采访A Self-Taught AI Researcher at Google[23]中，你可以直接从 Google Art＆Culture 的 ML 研究人员 Emil 那里听到有关他作为一名自学成才的研究人员从事 AI 事业的经历。

3、Tools and Datasets ⚙️

3.1 Free Datasets

Google 数据集搜索[24]正式退出测试版，现在可提供多达 2500 万个数据集进行搜索。如果你想获得下一个数据科学或机器学习项目的灵感，那么这里是查找对整个 Internet 上托管的数据集的引用的地方。它基本上是用于数据集的搜索引擎，这是一项了不起的工作，需要付出巨大的努力！

Big Bad NLP 数据库[25]是一个网站，你可以在其中搜索 200 多种 NLP 数据集的专用数据库，以执行诸如常识，情感分析，问题回答，蕴含推理等任务。

3.2 Reinforcement learning library

最近，Chris Nota 开发并发布了PyTorch 库[26]，用于基于流行的深度 RL 算法（例如 DQN，PPO 和 DDPG 等）来构建强化学习代理。该库的重点是面向对象的设计，并能够快速实施和评估新型强化学习代理。

3.3 ML Explainability and Interpretability

如果你当前正在使用基于文本的语言模型，并且想了解在应用于不同语言任务时如何更轻松地解释它们，那么你可能会对Captum[27]感兴趣。Captum 是一个可解释性库，可用于分析功能重要性，解释文本和视觉模型，解释多峰模型以及其他模型（例如用于回答问题的 BERT）。

如果你对模型的可解释性感兴趣，那么这套教程[28]也可能会让您感兴趣。它包括通过 notebook 了解功能重要性的方法。

3.4 Machine learning and deep learning libraries

Google Research 团队发布了Flax[29]，一种基于JAX[30]的灵活而强大的神经网络库，该库提供了使用典型的 Numpy API 进行快速计算和训练机器学习模型的框架。

Thinc[31]是由 spaCy 的开发者开发的轻量级深度学习库。它提供了功能编程 API，用于组成，配置和部署使用 PyTorch 和 TensorFlow 之类的库构建的自定义模型。

Lyft 发布了Flyte[32]，它是一个多租户，可用于生产的无服务器平台，用于部署并发，可伸缩和可维护的 ML 和数据处理工作流。

3.5 A tool for conversational AI

开源对话式 AI 框架DeepPavlov[33]为构建对话系统和复杂的对话系统提供了免费且易于使用的解决方案。DeepPavlov 带有几个预定义的组件，用于解决与 NLP 相关的问题。它将 BERT（包括会话 BERT）集成到三个下游任务中：文本分类，命名实体识别（和一般的序列标记）以及问题解答。结果，它在所有这些任务上都取得了重大改进。(Google Colab[34] | Blog[35] | Demo[36])

4、Ethics in AI 🚨

4.1 Facial recognition and privacy

纽约时报针对与面部识别技术有关的隐私的不同观点撰写了一篇有趣的报告。这个故事的重点是一个名为“ Clearview”的“秘密公司”，据称该公司使用 AI 技术通过从 Twitter，Facebook 和 YouTube 等社交媒体网站上抓取的图像来构建通用的面部识别。所述技术引起了人们对隐私的担忧，但是据称它还主要用于执法。点击此处[37]阅读更多故事。

4.2 Human-Level AI Progress

Jeremy Kahn 在这个报告[38]中广泛讨论了在 AI 技术的当前发展背景下“ Narrow AI”和“ General AI”之间的区别。除了讨论的许多主题之外，关于（如果可能的话）实现 AGI 的回报还有很多问题。该报告还提到了大型高科技公司最近对这些努力进行投资的兴趣。最值得注意的是，该报告包括一些受人尊敬的研究人员提出的一些担忧，他们声称某些试图操纵 AI 叙述以利于他们的研究组织表现出“不负责任和不道德”的行为。

4.3 Understanding AI Ethics and Safety

5、Articles and Blog posts ✍️

5.1 Speeding up tokenization tutorial

Steven van de Graaf 撰写了这篇文章[40]，报告说，与使用 Transformers 中的标准内置标记器相比，使用HuggingFace 的新 Tokenizer 库[41]的性能有所提高。Steven 报告说，其速度提高了 9 倍，并且实现过程花费了 10.6 秒来标记 100 万个句子。

5.2 Can language models really comprehend?

The Gradient 最近在Gary Marcus 的这篇文章[42]中发表，他讨论了他认为是 GPT-2 等语言模型背后的基本缺陷的内容。Gary Marcus 的主要观点是，经过训练能够预测下一个单词的模型不一定是可以理解或推理的模型，即“预测是理解的组成部分，而不是整体。” 他还讨论了在语言环境中先天性的重要性，并指出当前的语言模型没有考虑到这一点。

5.3 Curriculum for Reinforcement Learning

5.4 Introduction to NumPy

6、Education 🎓

6.1 Foundations of machine learning and statistical inference

来自加州理工学院的 Anima Anandkumar 发布了一门名为“机器学习和统计推论的基础”的课程。该课程侧重于 ML 概念，例如矩阵，张量，优化，概率模型，神经网络等。这是一门很棒的课程，因为它侧重于 ML 的理论方面，这对于理解和改进更高级的方法同样重要。（视频播放列表[45]|课程提纲[46]）

6.2 Deep Learning Lecture Series

DeepMind 与 UCL 合作发布了深度学习讲座系列[47]，其中包括 12 个讲座，这些讲座将由 DeepMind 的领先研究科学家进行。主题包括如何使用注意力，记忆力和生成模型等方法训练神经网络。

6.3 Open Syllabus

6.4 Discussing, Sharing, and Learning about ML

r/ResearchML[49]是用于讨论 ML 论文的新的机器学习子目录。这一主题更侧重于研究并鼓励更深入的讨论。

7、Notable Mentions ⭐️

How we built the good first issues feature[51]：了解有关 GitHub 如何利用机器学习为开发人员发现简单和个性化问题的更多信息，以便他们可以解决与他们的兴趣相匹配的问题。这鼓励了来自开源贡献者的更快和更多的贡献。

紧跟 Sebastian Ruder 的 NLP News[52]，以获取最新的 NLP 最新新闻。重点包括 NLP 进展的更新，过去十年的回顾，新的 NLP 课程以及其他主题。

一份超赞的TensorFlow 2.0 深度学习 notebook[53]列表，范围从 CycleGAN 到 Transformers 到图像字幕任务。它们由 LBNL 的科学学院深度学习公开发布。

一篇令人印象深刻且易于理解的博客文章，解释了贝叶斯神经网络[54]的基础，入门的绝佳介绍。

An Opinionated Guide to ML Research[55]：John Schulman 就如何更好地选择研究问题以及在实施和解决手头的研究任务方面更具战略性等方面，为即将到来的机器学习研究人员提供了一些建议，还分享了个人发展和持续进步的技巧。

今日限定款分割线，右下角链接可以阅读原文~

本文参考资料

[1]

RobBERT: https://arxiv.org/abs/2001.06286

[2]

BERTje: https://arxiv.org/abs/1912.09582

[3]

德语 German BERT: https://deepset.ai/german-bert

[4]

葡萄牙语 Portuguese BERT: https://github.com/neuralmind-ai/portuguese-bert

[5]

CamemBERT: https://arxiv.org/abs/1911.03894

[6]FlauBERT: https://arxiv.org/abs/1912.05372[7]AlBERTo: http://ceur-ws.org/Vol-2481/paper57.pdf

[8]UmBERTo: https://github.com/musixmatchresearch/umberto

[9]BETO: https://github.com/dccuchile/beto

[10]araBERT: https://colab.research.google.com/drive/1KSy89fAkWt6EGfnFQElDjXrBror9lIZh

[11]Transformer 库: https://huggingface.co/models

[12]2.4.1: https://github.com/huggingface/transformers/releases

[13]论文: https://arxiv.org/abs/2001.06296

[14]hallucination : https://arxiv.org/abs/1910.08684

[15]LaserTagger: https://ai.googleblog.com/2020/01/encode-tag-and-realize-controllable-and.html

[16]报告: https://arxiv.org/abs/2001.07092

[17]mBART: https://arxiv.org/pdf/2001.08210.pdf

[18]Meena: https://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html

[19]关于这项工作的想法: https://venturebeat.com/2020/01/31/with-googles-meena-are-ai-assistants-about-to-get-alot-smarter/

[20]Albert Learns to Read: https://littlealbert.now.sh/#/

[21]ALBERT: https://ai.googleblog.com/2019/12/albert-lite-bert-for-self-supervised.html

[22]博客 Teaching Machines to Read: https://www.spark64.com/post/machine-comprehension

[23]A Self-Taught AI Researcher at Google: https://blog.floydhub.com/emils-story-as-a-self-taught-ai-researcher/

[24]Google 数据集搜索: https://blog.google/products/search/discovering-millions-datasets-web/

[25]Big Bad NLP 数据库: https://quantumstat.com/dataset/dataset.html

[26]PyTorch 库: https://github.com/cpnota/autonomous-learning-library

[27]Captum: https://captum.ai/

[28]这套教程: https://www.kaggle.com/learn/machine-learning-explainability

[29]Flax: https://github.com/google-research/flax/tree/prerelease

[30]JAX: https://github.com/google/jax

[31]Thinc: https://thinc.ai/

[32]Flyte: https://eng.lyft.com/introducing-flyte-cloud-native-machine-learning-and-data-processing-platform-fb2bb3046a59

[33]DeepPavlov: https://github.com/deepmipt/DeepPavlov

[34]Google Colab: https://colab.research.google.com/github/deepmipt/dp_notebooks/blob/master/DP_tf.ipynb

[35]Blog: https://medium.com/tensorflow/deeppavlov-an-open-source-library-for-end-to-end-dialog-systems-and-chatbots-31cf26849e37

[36]Demo: https://demo.deeppavlov.ai/#/en/textqa

[37]此处: https://www.nytimes.com/2020/01/18/technology/clearview-privacy-facial-recognition.html

[38]这个报告: https://fortune.com/longform/ai-artificial-intelligence-big-tech-microsoft-alphabet-openai/

[39]这份非常详尽的报告: https://www.turing.ac.uk/sites/default/files/2019-06/understanding_artificial_intelligence_ethics_and_safety.pdf

[40]这篇文章: https://towardsdatascience.com/a-small-timing-experiment-on-the-new-tokenizers-library-a-write-up-7caab6f80ea6

[41]HuggingFace 的新 Tokenizer 库: https://github.com/huggingface/tokenizers

[42]Gary Marcus 的这篇文章: https://thegradient.pub/gpt2-and-the-nature-of-intelligence/

[43]几种基于课程的方法: https://lilianweng.github.io/lil-log/2020/01/29/curriculum-for-reinforcement-learning.html

[44]非常详细的 numpy 教程: https://numpy.org/devdocs/user/absolute_beginners.html

[45]视频播放列表: https://www.youtube.com/playlist?list=PLVNifWxslHCDlbyitaLLYBOAEPbmF1AHg

[46]课程提纲: http://tensorlab.cms.caltech.edu/users/anima/cms165-2020.html

[47]深度学习讲座系列: https://www.eventbrite.co.uk/o/ucl-x-deepmind-deep-learning-lecture-series-general-29078980901

[48]Open Syllabus: https://opensyllabus.org/

[49]r/ResearchML: https://www.reddit.com/r/ResearchML/

[50]PracticalAI: https://practicalai.me/explore/content/

[51]How we built the good first issues feature: https://github.blog/2020-01-22-how-we-built-good-first-issues/

[52]NLP News: http://newsletter.ruder.io/issues/nlp-progress-restrospectives-and-look-ahead-new-nlp-courses-independent-research-initiatives-interviews-lots-of-resources-217744

[53]TensorFlow 2.0 深度学习 notebook: https://github.com/NERSC/dl4sci-tf-tutorials

[54]贝叶斯神经网络: https://engineering.papercup.com/posts/bayesian-neural-nets/

[55]An Opinionated Guide to ML Research: http://joschu.net/blog/opinionated-guide-ml-research.html

本文首发于微信公众号：NewBeeNLP

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,214评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,307评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,543评论 0赞 341
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,221评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,224评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,007评论 1赞 284
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,313评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,956评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,441评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,925评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,018评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,685评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,234评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,240评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,464评论 1赞 261
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,467评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,762评论 2赞 345

NLP简报

本文首发于微信公众号：NewBeeNLP

1、Publications 📙

1.1 Language-specific BERT models

1.2 Overly Optimistic Prediction Results on Imbalanced Data: Flaws and Benefits of Applying Over-sampling

1.3 Encode, Tag and Realize: A Controllable and Efficient Approach for Text Generation

1.4 Convolutional Neural Networks as a Model of the Visual System: Past, Present, and Future

1.5 Multilingual Denoising Pre-training for Neural Machine Translation

1.6 On improving conversational agents

2、Creativity and Society 🎨

2.1 ML tools — reading comprehension test and sentiment analyzer

2.2 A Self-Taught AI Researcher at Google

3、Tools and Datasets ⚙️

3.1 Free Datasets

3.2 Reinforcement learning library

3.3 ML Explainability and Interpretability

3.4 Machine learning and deep learning libraries

3.5 A tool for conversational AI

4、Ethics in AI 🚨

4.1 Facial recognition and privacy

4.2 Human-Level AI Progress

4.3 Understanding AI Ethics and Safety

5、Articles and Blog posts ✍️

5.1 Speeding up tokenization tutorial

5.2 Can language models really comprehend?

5.3 Curriculum for Reinforcement Learning

5.4 Introduction to NumPy

6、Education 🎓

6.1 Foundations of machine learning and statistical inference

6.2 Deep Learning Lecture Series

6.3 Open Syllabus

6.4 Discussing, Sharing, and Learning about ML

7、Notable Mentions ⭐️

本文参考资料

推荐阅读更多精彩内容