今天看了几篇简直炸裂的文章,之前火的要死的 transformer 终于搞懂了(尤其是在 Bert问世之后),感觉学会了很多东西,下面分享链接。
今天算是收获满满了~
NLP2017至今的两年炸裂历程:
Transformer
->
Weighted Transformer
->
Universal Transformers
->
Transformer-XL
->
ELMO
GPT
ULM-FiT
->
BERT
讲解:
The Illustrated BERT, ELMo, and co. (How NLP Cracked Transfer Learning)
附带一篇自适应计算次数(ACT)的解读文章,理解 universal transformer 时会用到~:
Adaptive Computation Time
当然还有很多很多,我就不一一贴出来啦,小编在此祝大家学习愉快~