240 发简信
IP属地:江苏
  • 倒数第二段,应为“TF的word2vec实现里,词频越大,词的类别编号越小,被采样到的概率越大。”

  • 确实Q[5,5]=0,楼上的看成R[5,5]=100了。
    另外楼主的第二次episode公式有误,结果倒是正确的,应该是手误写错了,应该是Q(3,1) = R(3,1)+ 0.8 * max(Q(1,3),Q(1,5))=0 + 0.8 * max(0,100) = 80

    增强学习 Q-learning

    对于小白菜来说,首先是了解Q-learning的基本原理,最好是像学习bp,学习CNN一样可以将一条计算走通,这里分享比较好理解的两个博客,英文原版:http://mnems...