Classification Classification分类的主要目的就是为我们的数据记录打上标签。分类模型主要分为两大类:1.Supervi...
推荐系统基础知识概览图 在进行推荐系统构建时,我们主要分为四大步:1.基于数据源获取数据 2.对数据进行预处理操作 3.通过相关模型对数据进行分...
概述 Web主要由Web服务器和Web客户端组成。Web客户端(浏览器)通过Http协议向Web服务器发送请求,Web服务器接收到请求后便会对该...
简述 强化学习方法主要分为两类,一类是Model-based,另外一种是Model free,如图所示: 而Model Free中又包含两种方法...
概述 DQN其实是深度学习和强化学习知识的结合,也就是用Deep Networks框架来近似逼近强化学习中的Q value。其中,使用的Deep...
概述 时序差分算法是一种无模型的强化学习算法。它继承了动态规划(Dynamic Programming)和蒙特卡罗方法(Monte Carlo ...
概述 蒙特卡罗方法(Monte Carlo Methods)是强化学习中基于无模型的训练方法。与动态规划(Dynamic Programming...
区分Continuing Task和Episodic Task 前一节我们已经解释了什么是episode,episode即为从初始的状态到终止状...
马尔可夫属性(The Markov Property) 说到马尔可夫决策过程,我们先来谈谈什么是马尔可夫属性。马尔可夫属性的概念为:下一个状态或...