强化学习 - 文集

强化学习

7篇文章 · 19809字 · 4人关注

从零开始强化学习（七）——DDPG
DDPG是google DeepMind团队提出的一种用于输出确定性动作的算法，它解决了Actor-Critic神经网络每次参数更新前后都存在相...

1.2 10701 0 4
从零开始强化学习（六）——模仿学习
模仿学习（imitation learning，IL）又叫做示范学习（learning from demonstration），学徒学习（app...

1.5 3785 0 5

从零开始强化学习（五）——Deep Q-network(DQN)
五. Deep Q-network(DQN) 现实中强化学习面临的状态空间往往是连续的，存在无穷多个状态。这种情况下，就不能再使用表格对价值函数...

2.0 2876 0 11
从零开始强化学习（四）——策略梯度
四. 策略梯度(Policy Gradient) 4.1 期望奖励(Expected Reward) 在强化学习中有3个组成部分：演员(acto...

8.6 1638 0 8
从零开始强化学习（三）——表格型方法
三. 表格型方法(Tabular Methods) 强化学习的三个重要的要素：状态、动作和奖励。强化学习智能体跟环境是一步一步交互的，就是先观察...

7.8 1902 1 5
从零开始强化学习（二）——马尔可夫决策过程
二. 马尔可夫决策过程(Markov Decision Processes, MDP) 2.1 马尔可夫性质(Markov Property) ...

0.4 2403 3 6
从零开始强化学习（一）——基础概念
一. 强化学习概念(Reinforcement learning) 引言：Reinforcement learning (RL) is an a...

0.2 1264 0 6