AI免费学习网
GPT4在线
编程
AI
软件开发
爬虫
大数据分析
自动化测试运维
教程分类
AI
强化学习
强化学习
点击下方卡片
蓝色字体
,学习对应课时
1 强化学习的基本概念和历史
2 强化学习导论之强化学习与监督学习的区别
3 强化学习导论之强化学习的应用领域
4 Markov决策过程(MDP)的定义与基本要素
5 Markov决策过程之状态、动作和奖励
6 Markov决策过程之折扣因子与价值函数
7 动态规划的基本思想和框架
8 强化学习从零学教程系列之动态规划之值迭代算法
9 动态规划之策略迭代算法
10 蒙特卡罗方法的基本原理
11 蒙特卡罗控制方法概述
12 区间估计
13 时序差分学习介绍
14 强化学习之SARSA算法
15 时序差分学习之Q学习的原理与实现
16 Q学习的详细讲解
17 探索与利用的权衡
18 近似Q学习
19 深度强化学习之深度学习在强化学习中的应用
20 深度强化学习之DQN算法
21 深度强化学习之经验回放
22 策略梯度的基本概念
23 REINFORCE算法
24 强化学习中的优势函数
25 强化学习在游戏中的应用
26 应用案例之强化学习在机器人中的应用
27 强化学习的未来发展
×