【强化学习的数学原理】课程:从零开始到透彻理解(完结)

92.8万
1.1万
2022-09-16 19:58:06
正在缓冲...
1.5万
1.8万
3.8万
7247
教材PDF+PPT+代码网址: 1. 【Github】:https://github.com/MathFoundationRL/Book-Mathmatical-Foundation-of-Reinforcement-Learning 2. 【百度网盘】:https://pan.baidu.com/s/1kNxM8sl8FUWV6SiiGIep3Q?pwd=ghx8 3. 【Onedrive】:https://westlakeu-my.sharepoint.com/:f:/g/personal/lyujialing_westlake_edu_cn/EgN1-0jOU61BnaTkG7zJ9nsBUdjKEi6hNrdT5n8mp-qn3g?e=3MbtmD 其中GitHub的材料是最新的,有条件的推荐访问GitHub
欢迎来到西湖大学智能无人系统实验室(WINDY Lab)
视频选集
(1/54)
自动连播
【一张图讲完强化学习原理】 30分钟了解强化学习名词脉络
36:04
第1课-基本概念(State,action,policy等)
18:48
第1课-基本概念(Reward,return,MDP等)
22:11
第2课-贝尔曼公式(例子说明Return的重要性)
16:18
第2课-贝尔曼公式(State value的定义)
06:47
第2课-贝尔曼公式(贝尔曼公式的详细推导)
15:16
第2课-贝尔曼公式(公式向量形式与求解)
13:05
第2课-贝尔曼公式(Action value的定义)
09:32
第3课-贝尔曼最优公式(例子-如何改进策略)
07:36
第3课-贝尔曼最优公式(最优策略和公式推导)
11:12
第3课-贝尔曼最优公式(公式求解以及最优性)
10:17
第3课-贝尔曼最优公式(最优策略的有趣性质)
13:58
第4课-值迭代与策略迭代(值迭代算法)
11:45
第4课-值迭代与策略迭代(策略迭代算法)
15:08
第4课-值迭代与策略迭代(截断策略迭代算法)
13:33
第5课-蒙特卡洛方法(通过例子介绍蒙特卡洛)
08:13
第5课-蒙特卡洛方法(MC Basic算法介绍)
10:08
第5课-蒙特卡洛方法(MC Basic算法例子)
11:32
第5课-蒙特卡洛方法(MC Exploring Starts算法)
11:01
第5课-蒙特卡洛方法(MC Epsilon-Greedy算法介绍)
08:34
第5课-蒙特卡洛方法(MC Epsilon-Greedy算法例子)
12:52
第6课-随机近似与随机梯度下降(通过例子介绍Iterative mean estimation)
10:27
第6课-随机近似与随机梯度下降(Robbins-Monro算法介绍与例子)
10:37
第6课-随机近似与随机梯度下降(Robbins-Monro算法收敛性及应用)
14:05
第6课-随机近似与随机梯度下降(随机梯度下降算法介绍)
06:58
第6课-随机近似与随机梯度下降(随机梯度下降例子与收敛性)
09:44
第6课-随机近似与随机梯度下降(随机梯度下降有趣的性质)
13:22
第6课-随机近似与随机梯度下降(随机梯度下降对比BGD, MBGD, SGD)
09:59
第7课-时序差分方法(例子)
08:33
第7课-时序差分方法(TD算法介绍)
13:04
第7课-时序差分方法(TD算法收敛性、与MC的比较)
15:39
第7课-时序差分方法(Sarsa)
15:42
第7课-时序差分方法(Expected Sarsa 和n-step Sarsa)
13:40
第7课-时序差分方法(Q-learning介绍、on-policy vs off-policy)
17:07
第7课-时序差分方法(Q-learning伪代码与例子)
08:29
第7课-时序差分方法(TD算法的统一形式和总结)
09:48
第8课-值函数近似(例子-曲线拟合)
13:33
第8课-值函数近似(原理-目标函数介绍)
12:49
第8课-值函数近似(原理-优化算法和函数选择)
12:34
第8课-值函数近似(原理-示例与分析)
12:53
第8课-值函数近似(Sarsa和Q-learning)
08:13
第8课-值函数近似(DQN-基本原理)
09:40
第8课-值函数近似(DQN-Experience replay)
09:39
第8课-值函数近似(DQN-代码与例子)
14:18
第9课-策略梯度方法(该方法的基本思路)
10:25
第9课-策略梯度方法(该方法的目标函数1-Average value)
08:33
第9课-策略梯度方法(该方法的目标函数2-Average reward)
11:10
第9课-策略梯度方法(目标函数的梯度计算)
10:43
第9课-策略梯度方法(梯度上升算法和REINFORCE)
16:18
第10课-Actor-Critic方法(最简单的Actor-Critic (QAC))
10:46
第10课-Actor-Critic方法(Advantage Actor-Critic (A2C))
14:20
第10课-Actor-Critic方法(重要性采样和Off-Policy Actor-Critic)_更新
19:27
第10课-Actor-Critic方法(Deterministic Actor-Critic (DPG))
11:28
第10课-Actor-Critic方法(再见)
01:29
客服
顶部
赛事库 课堂 2021拜年纪