UP主: 封面: 简介:教材PDF+PPT+代码网址:1. 【Github】:https://github.com/MathFoundationRL/Book-Mathmatical-Foundation-of-Reinforcement-Learning 2. 【百度网盘】:https://pan.baid...
视频选集 【一张图讲完强化学习原理】 30分钟了解强化学习名词脉络 第1课-基本概念(State,action,policy等) 第1课-基本概念(Reward,return,MDP等) 第2课-贝尔曼公式(例子说明Return的重要性) 第2课-贝尔曼公式(State value的定义) 第2课-贝尔曼公式(贝尔曼公式的详细推导) 第2课-贝尔曼公式(公式向量形式与求解) 第2课-贝尔曼公式(Action value的定义) 第3课-贝尔曼最优公式(例子-如何改进策略) 第3课-贝尔曼最优公式(最优策略和公式推导) 第3课-贝尔曼最优公式(公式求解以及最优性) 第3课-贝尔曼最优公式(最优策略的有趣性质) 第4课-值迭代与策略迭代(值迭代算法) 第4课-值迭代与策略迭代(策略迭代算法) 第4课-值迭代与策略迭代(截断策略迭代算法) 第5课-蒙特卡洛方法(通过例子介绍蒙特卡洛) 第5课-蒙特卡洛方法(MC Basic算法介绍) 第5课-蒙特卡洛方法(MC Basic算法例子) 第5课-蒙特卡洛方法(MC Exploring Starts算法) 第5课-蒙特卡洛方法(MC Epsilon-Greedy算法介绍) 第5课-蒙特卡洛方法(MC Epsilon-Greedy算法例子) 第6课-随机近似与随机梯度下降(通过例子介绍Iterative mean estimation) 第6课-随机近似与随机梯度下降(Robbins-Monro算法介绍与例子) 第6课-随机近似与随机梯度下降(Robbins-Monro算法收敛性及应用) 第6课-随机近似与随机梯度下降(随机梯度下降算法介绍) 第6课-随机近似与随机梯度下降(随机梯度下降例子与收敛性) 第6课-随机近似与随机梯度下降(随机梯度下降有趣的性质) 第6课-随机近似与随机梯度下降(随机梯度下降对比BGD, MBGD, SGD) 第7课-时序差分方法(例子) 第7课-时序差分方法(TD算法介绍) 第7课-时序差分方法(TD算法收敛性、与MC的比较) 第7课-时序差分方法(Sarsa) 第7课-时序差分方法(Expected Sarsa 和n-step Sarsa) 第7课-时序差分方法(Q-learning介绍、on-policy vs off-policy) 第7课-时序差分方法(Q-learning伪代码与例子) 第7课-时序差分方法(TD算法的统一形式和总结) 第8课-值函数近似(例子-曲线拟合) 第8课-值函数近似(原理-目标函数介绍) 第8课-值函数近似(原理-优化算法和函数选择) 第8课-值函数近似(原理-示例与分析) 第8课-值函数近似(Sarsa和Q-learning) 第8课-值函数近似(DQN-基本原理) 第8课-值函数近似(DQN-Experience replay) 第8课-值函数近似(DQN-代码与例子) 第9课-策略梯度方法(该方法的基本思路) 第9课-策略梯度方法(该方法的目标函数1-Average value) 第9课-策略梯度方法(该方法的目标函数2-Average reward) 第9课-策略梯度方法(目标函数的梯度计算) 第9课-策略梯度方法(梯度上升算法和REINFORCE) 第10课-Actor-Critic方法(最简单的Actor-Critic (QAC)) 第10课-Actor-Critic方法(Advantage Actor-Critic (A2C)) 第10课-Actor-Critic方法(重要性采样和Off-Policy Actor-Critic)_更新 第10课-Actor-Critic方法(Deterministic Actor-Critic (DPG)) 第10课-Actor-Critic方法(再见)