今天要介绍的是一个多任务学习模型MMoE[https://dl.acm.org/doi/pdf/10.1145/3219819.3220007],如果第一次接触此类模型或是没...
IP属地:宁夏
今天要介绍的是一个多任务学习模型MMoE[https://dl.acm.org/doi/pdf/10.1145/3219819.3220007],如果第一次接触此类模型或是没...
正文前的扯淡 之前电话面试一个公司时,面试官让写一个堆排序,遗憾的是我忘了堆排序的思想了,所以直接说不会写,这次电面也以失败告终...知耻后勇,这几天在网上找了很多写堆排序的...
如果使用基于最大似然估计的模型,模型中存在隐变量,就要用EM算法做参数估计。个人认为,理解EM算法背后的idea,远比看懂它的数学推导重要。idea会让你有一个直观的感受,从...
兴奋 去年, Google 的 BERT 模型一发布出来,我就很兴奋。 因为我当时正在用 fast.ai 的 ULMfit 做自然语言分类任务(还专门写了《如何用 Pytho...
今天尝试总结一下 tf.data 这个API的一些用法吧。之所以会用到这个API,是因为需要处理的数据量很大,而且数据均是分布式的存储在多台服务器上,所以没有办法采用传统的喂...
TF官网上给出了三种读取数据的方式: Preloaded data: 预加载数据 Feeding: Python 产生数据,再把数据喂给后端 Reading from fil...
基于随机梯度下降(SGD)的优化算法在科研和工程的很多领域里都是极其核心的。很多理论或工程问题都可以转化为对目标函数进行最小化的数学问题。 按吴恩达老师所说的,梯度下降(Gr...