第一节上
1.什么是强化学习
2.强化学习和监督学习对比?
强化学习是序列数据,不是独立iid的
Agent的行为会影响接受到的数据
需要一个权衡,需要探索
没有一个监督者,不能立刻得到反馈。延迟奖励
3.举例强化学习。
Pong。
4.深度学习+强化学习
5.为什么RL works?
计算力;端到端的训练
第一节下
1.Agent和环境交互
2.奖励
3.序列决策
4.RL agent组成部分
决策;价值函数;模型
决策分为两种:1.随机决策,输出概率2.决定好的决策,输出最大概率
价值函数
模型
5.马尔科夫决策过程
6.Exploration and exploitation
tradeoff
听不懂啊- -