NLP简报(Issue#5):The Annotated GPT-2、CodeBERT、JAX、GANILLA等

本文首发于微信公众号:NewBeeNLP


欢迎来到 NLP 时事简报!全文较长,建议收藏。

如果想让自己有趣的研究/项目出现在NLP简报中,随时在公众号后台留言联系我


  • 1、Publications 📙
    • 1.1 理解self-distillation

    • 1.2 深度学习十年简史

    • 1.3 利用神经网络求解高等数学方程

    • 1.4 CodeBERT

  • 2、Creativity and Society 🎨
    • 2.1 AI for scientific discovery

    • 2.2 改善image-to-illustration

    • 2.3 Andrew Ng谈自监督学习

  • 3、Tools and Datasets ⚙️

    • 3.1 JAX libraries

    • 3.2 处理维基百科数据的工具

    • 3.3 Rust Tokenizers, DistilBERT base cased

    • 3.4 夸夸语料

  • 4、Ethics in AI 🚨

    • 4.1 NLP和ML模型的道德考量

  • 5、Articles and Blog posts ✍️

    • 5.1 The Annotated GPT-2

    • 5.2 Beyond BERT?

    • 5.3 矩阵压缩算子

  • 6、Education 🎓

    • 6.1 NLP基础

    • 6.2 数学基础课

    • 6.3 书籍推荐

    • 6.4 计算机科学自学指南

  • 7、Noteworthy Mentions ⭐️

  • 1、Publications 📙

    1.1 理解self-distillation

    在深度学习中,self-distillation[1]是将知识从一种架构转移到另一种相同架构的过程。在训练时,原始模型的预测作为目标值提供给另一个模型。除具有所需的属性(例如减小模型大小)外,经验结果还表明该方法在held-out datasets上效果很好。

    1.2 深度学习十年简史

    人工智能的先驱、LSTM之父JürgenSchmidhuber最近发布了一个新博客,The 2010s: Our Decade of Deep Learning / Outlook on the 2020s[3],提供自2010年以来的深度学习历史概述,包括LSTM,前馈神经网络,GAN,深度强化学习,元学习,世界模型 ,蒸馏神经网络,注意学习等一些主题。文章最后总结了2020年代的前景,鼓励人们关注紧迫的问题,例如隐私和数据市场。

    1.3 利用神经网络求解高等数学方程

    1.4 CodeBERT

    在这篇名为《CodeBERT: A Pre-Trained Model for Programming and Natural Languages》[5]的论文中,来自哈工大、中山大学和微软的研究人员详细介绍了这一新预训练模型,该模型可处理双模态数据:编程语言(PL)和自然语言(NL)。

    CodeBERT 学习能够支持下游 NL-PL 应用的通用表示,比如自然语言代码搜索、代码文档生成,经实验 CodeBERT 模型在两项任务均取得 SOTA 效果,同时研究者构建了 NL-PL 探测数据集,CodeBERT 在 zero-shot 设置中的性能表现也持续优于 RoBERTa。

    2、Creativity and Society 🎨

    2.1 AI for scientific discovery

    Mattew Hutson报告了如何使用人工智能(AI)来生成仿真器[6],这些仿真器在对复杂自然现象进行建模方面具有重要作用,而自然现象又可能导致不同类型的科学发现。构建这些仿真器的变化是,它们通常需要大规模数据和广泛的参数探索。最近的论文提出了DENSE方法[7],一种基于神经结构搜索[8]来构建准确的仿真器,而仅依赖有限数量的训练数据。他们通过对包括天体物理学,气候科学和聚变能等在内的案例进行仿真来对其进行测试。

    2.2 改善image-to-illustration

    2.3 Andrew Ng谈自监督学习

    deeplearning.ai的创始人Andrew Ng加入人工智能播客[12],讨论的主题包括他早期从事ML的工作,AI的未来和AI教育,正确使用ML的建议,他的个人目标以及在2020年代应该关注ML技术。

    Andrew解释了为什么他对自监督的表示学习感到非常兴奋。自监督式学习涉及一个学习问题,该问题旨在从数据本身获得监督,以利用大量未标记数据,这比纯净标记数据更常见。这些表示很重要,可用于处理下游任务,类似于BERT等语言模型中使用的任务。

    3、Tools and Datasets ⚙️

    3.1 JAX libraries

    JAX[14]是一个新库,结合了NumPy和自动微分功能,可以进行高性能ML研究。为了简化使用JAX构建神经网络的管道,DeepMind发布了Haiku[15]和RLax[16]。使用熟悉的面向对象编程模型,RLax简化了强化学习代理的实现,而Haiku简化了神经网络的构建。

    3.2 处理维基百科数据的工具

    3.3 Rust Tokenizers, DistilBERT base cased, Model cards

    Hugging Face发行的新版Transformers[19]包括其快速分词器库的集成,该库旨在加速BERT,RoBERTa,GPT2等模型以及其他社区构建的模型。

    3.4 夸夸语料

    夸夸语料[20],来自豆瓣互相表扬组数据。

    4、Ethics in AI 🚨

    4.1 NLP和ML模型的道德考量

    在NLP Highlights的新内容中[21],Emily Bender和主持人讨论了在学术界和实际使用情况下开发NLP模型和技术时的一些道德考量。讨论中的一些主题包括设计NLP任务,数据收集方法以及最终发布结果时的道德考虑。

    除了上述所有考虑因素之外,AI社区中经常讨论的一个问题过于关注优化指标,这与AI旨在实现的目标背道而驰。Rachel Thomas和David Uminsky[22]讨论了通过对不同用例进行透彻分析而可能出错的地方。他们还提出了一个缓解该问题的简单框架,其中涉及多个指标的使用和组合,然后是那些直接受到该技术影响的人的参与。

    5、Articles and Blog posts ✍️

    5.1 The Annotated GPT-2

    5.2 Beyond BERT?

    Sergi Castella[25]对BERT以外的内容感兴趣。主要主题包括改善指标,Hugging Face的Transformers库如何支持研究,查看有趣的数据集,解压缩模型等。

    5.3 矩阵压缩算子

    6、Education 🎓

    6.1 NLP基础

    NLP基础[27]从基础开始讲授NLP概念,同时分享最佳实践,重要参考,应避免的常见错误以及NLP的未来。包含一个Colab笔记本[28],该项目将在此github[29]维护。

    6.2 数学基础课

    Machine Learning Tokyo 将在3月8日主持一个远程在线讨论,其中回顾他们最近的在线学习课程中[30]涉及的章节。该小组以前研究过Marc Peter Deisenroth,Ado Faisal和Cheng Soon Ong所著的《机器学习数学》[31]一书章节。

    6.3 书籍推荐

    6.4 计算机科学自学指南

    7、Noteworthy Mentions ⭐️

    Torchmeta[35]是一个是由Tristan Deleu创作的可以轻松使用相关的数据加载器进行元学习研究的库。

    Manuel Tonneau撰写了一篇文章,仔细研究了语言建模中涉及的一些机制[36],包括贪婪和波束搜索以及原子核采样等主题。

    MIT发布了名为“Introduction to Deep Learning[37]”的课程的完整提纲和课程表,其中包括已授课的视频, 他们的目标是每周发布视频讲座和幻灯片。

    了解如何使用基于Transformer的方法在不到300行代码中训练用于命名实体识别(NER)的模型[38]。您可以在此处找到随附的Google Colab[39]。


    本文参考资料

    [1]

    self-distillation: https://arxiv.org/pdf/1503.02531.pdf

    [2]

    Self-Distillation Amplifies Regularization in Hilbert Space: http://xxx.itp.ac.cn/abs/2002.05715

    [3]

    The 2010s: Our Decade of Deep Learning / Outlook on the 2020s: http://people.idsia.ch/~juergen/2010s-our-decade-of-deep-learning.html

    [4]

    Deep Learning for Symbolic Mathematics: https://arxiv.org/abs/1912.01412

    [5]

    《CodeBERT: A Pre-Trained Model for Programming and Natural Languages》: https://arxiv.org/abs/2002.08155

    [6]

    如何使用人工智能(AI)来生成仿真器: https://www.sciencemag.org/news/2020/02/models-galaxies-atoms-simple-ai-shortcuts-speed-simulations-billions-times

    [7]

    论文提出了DENSE方法: https://arxiv.org/abs/2001.08055

    [8]

    神经结构搜索: https://en.wikipedia.org/wiki/Neural_architecture_search

    [9]

    GANILLA: https://github.com/giddyyupp/ganilla

    [10]

    图像到图像翻译任务: https://paperswithcode.com/task/image-to-image-translation

    [11]

    GANILLA: Generative Adversarial Networks for Image to Illustration Translation: https://arxiv.org/abs/2002.05638

    [12]

    人工智能播客: https://www.youtube.com/watch?v=0jspaMLxBig

    [13]

    SimCLR: https://arxiv.org/abs/2002.05709

    [14]

    JAX: https://github.com/google/jax

    [15]

    Haiku: https://github.com/deepmind/dm-haiku

    [16]

    RLax: https://github.com/deepmind/rlax

    [17]

    Sparkwiki: https://github.com/epfl-lts2/sparkwiki

    [18]

    捕获跨不同语言版本的Wikipedia的趋势和语言偏见: https://arxiv.org/abs/2002.06885

    [19]

    新版Transformers: https://github.com/huggingface/transformers/releases/tag/v2.5.0

    [20]

    夸夸语料: https://github.com/xiaopangxia/kuakua_corpus

    [21]

    NLP Highlights的新内容中: https://soundcloud.com/nlp-highlights/106-ethical-considerations-in-nlp-research-emily-bender

    [22]

    Rachel Thomas和David Uminsky: https://arxiv.org/abs/2002.08512

    [23]

    The Annotated GPT-2: https://amaarora.github.io/2020/02/18/annotatedGPT2.html

    [24]

    The Annotated Transformer: https://nlp.seas.harvard.edu/2018/04/03/attention.html

    [25]

    Sergi Castella: https://towardsdatascience.com/beyond-bert-6f51a8bc5ce1

    [26]

    Matrix Compression Operator: https://blog.tensorflow.org/2020/02/matrix-compression-operator-tensorflow.html?linkId=82298016

    [27]

    NLP基础: https://medium.com/dair-ai/fundamentals-of-nlp-chapter-1-tokenization-lemmatization-stemming-and-sentence-segmentation-b362c5d07684

    [28]

    Colab笔记本: https://colab.research.google.com/drive/18ZnEnXKLQkkJoBXMZR2rspkWSm9EiDuZ

    [29]

    此github: https://github.com/dair-ai/nlp_fundamentals

    [30]

    在线学习课程中: https://www.meetup.com/Machine-Learning-Tokyo/events/268817313/

    [31]

    《机器学习数学》: https://mml-book.github.io/

    [32]

    TinyML: https://tinymlbook.com/?linkId=82595412

    [33]

    Deep Learning for Coders with fastai and PyTorch: AI Applications Without a PhD: https://www.amazon.com/Deep-Learning-Coders-fastai-PyTorch/dp/1492045527

    [34]

    reddit上也有类似的讨论: https://www.reddit.com/r/learnprogramming/comments/87j7fw/teach_yourself_computer_science_a_diy_curriculum/

    [35]

    Torchmeta: https://arxiv.org/abs/1909.06576

    [36]

    语言建模中涉及的一些机制: https://creatext.ai/blog-posts/machine-text-writing-gpt2-beam-search?utm_medium=newsletter

    [37]

    Introduction to Deep Learning: http://introtodeeplearning.com/

    [38]

    训练用于命名实体识别(NER)的模型: https://github.com/huggingface/transformers/blob/master/examples/ner/run_pl_ner.py

    [39]

    随附的Google Colab: https://colab.research.google.com/drive/184LPlygvdGGR64hgQl3ztqzZJu8MmITn

    END -

      Transformers Assemble(PART IV)

      【NLP保姆级教程】手把手带你CNN文本分类(附代码)

      NLP简报(Issue#4)

    本文首发于微信公众号:NewBeeNLP

    ©著作权归作者所有,转载或内容合作请联系作者
    • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
      沈念sama阅读 206,214评论 6 481
    • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
      沈念sama阅读 88,307评论 2 382
    • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
      开封第一讲书人阅读 152,543评论 0 341
    • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
      开封第一讲书人阅读 55,221评论 1 279
    • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
      茶点故事阅读 64,224评论 5 371
    • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
      开封第一讲书人阅读 49,007评论 1 284
    • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
      沈念sama阅读 38,313评论 3 399
    • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
      开封第一讲书人阅读 36,956评论 0 259
    • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
      沈念sama阅读 43,441评论 1 300
    • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
      茶点故事阅读 35,925评论 2 323
    • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
      茶点故事阅读 38,018评论 1 333
    • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
      沈念sama阅读 33,685评论 4 322
    • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
      茶点故事阅读 39,234评论 3 307
    • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
      开封第一讲书人阅读 30,240评论 0 19
    • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
      开封第一讲书人阅读 31,464评论 1 261
    • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
      沈念sama阅读 45,467评论 2 352
    • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
      茶点故事阅读 42,762评论 2 345

    推荐阅读更多精彩内容