72fdd06b5a72 - 简书

IP属地：江苏

72fdd06b5a72 ·

倒数第二段，应为“TF的word2vec实现里，词频越大，词的类别编号越小，被采样到的概率越大。”

d12fd6e50d91 评论自Tensorflow 的NCE-Loss的实现和word2vec
72fdd06b5a72

确实Q[5,5]=0，楼上的看成R[5,5]=100了。
另外楼主的第二次episode公式有误，结果倒是正确的，应该是手误写错了，应该是Q（3,1） = R（3,1）+ 0.8 * max(Q（1,3），Q(1,5))=0 + 0.8 * max(0,100) = 80

增强学习 Q-learning
对于小白菜来说，首先是了解Q-learning的基本原理，最好是像学习bp，学习CNN一样可以将一条计算走通，这里分享比较好理解的两个博客，英文原版：http://mnems...

翩翩公子银圈圈
5296 2 15