模型压缩 对于复杂问题建模时,深度学习模型在容纳更多参数的情况下,效果一般更好,但是模型占内存大,预测时间长的,往往限制其在小型或普通配制的硬件...
自然语言处理库Transformers包含了BERT、GPT、GPT-2、Transformer-XL、XLNet、XLM等模型的实现,近两年P...
论文地址:https://arxiv.org/abs/1908.10084[https://arxiv.org/abs/1908.10084]论...
网上的文章总把Attention注意力机制和Transformer模型结合来讲,看起来非常复杂。实际上Attention不仅作用于自然语言处理领...
在很长一段时间里,大家都对深度学习模型有所误解,认为模型需要非常大量的数据训练,且只能过训练过的模式起作用——用猫的数据训练就只能识别猫,只有在...
我们从初中就开始学习指数和对数,但即使是程序员平时也很少用到这些方法。本篇就来看看如何使用它们解决具体问题。 指数 在多分类问题中,一般在最后一...
深度学习成为主流是近十年的事,且涉及的知识很多,即使是资深工程师也很难在短时间内学会。学习过程中也有很多弯路,从复习大学数学开始,学习算法原理,...
风格迁移应用非常有趣,通过风格迁移也可以看到深层网络如何在不同层次提取特征。 可以看到,不只是颜色发生了变化,边缘,色块,对比度,甚至是笔触都...
卷积网络是近年来非常流行的网络结构,常用于处理图像(2维卷积)和自然语言(1维卷积)。在不明觉厉的情况下使用卷积层,往往使用别人设计的结构,凑参...
文集作者