教程分类: 强化学习 - AI免费学习网

强化学习

点击下方卡片蓝色字体，学习对应课时

1 强化学习的基本概念和历史

2 强化学习导论之强化学习与监督学习的区别

3 强化学习导论之强化学习的应用领域

4 Markov决策过程（MDP）的定义与基本要素

5 Markov决策过程之状态、动作和奖励

6 Markov决策过程之折扣因子与价值函数

7 动态规划的基本思想和框架

8 强化学习从零学教程系列之动态规划之值迭代算法

9 动态规划之策略迭代算法

10 蒙特卡罗方法的基本原理

11 蒙特卡罗控制方法概述

12 区间估计

13 时序差分学习介绍

14 强化学习之SARSA算法

15 时序差分学习之Q学习的原理与实现

16 Q学习的详细讲解

17 探索与利用的权衡

18 近似Q学习

19 深度强化学习之深度学习在强化学习中的应用

20 深度强化学习之DQN算法

21 深度强化学习之经验回放

22 策略梯度的基本概念

23 REINFORCE算法

24 强化学习中的优势函数

25 强化学习在游戏中的应用

26 应用案例之强化学习在机器人中的应用

27 强化学习的未来发展