在上一篇文章中，我们探讨了强化学习的应用领域，了解到强化学习在多种实际问题中的广泛应用，例如游戏、机器人控制、财务决策等。而在强化学习的核心中，“Markov决策过程”（Markov Decision Process，简称MDP）是理解强化学习算法的重要基础。本文将详细介绍MDP的定义及其基本要素。

什么是MDP？

Markov决策过程是一个数学框架，用于描述在某一环境中，智能体（agent）如何通过选择动作来最大化某一累积奖励。MDP提供了一种形式化的方式来建模智能体与环境之间的交互。

一个MDP由以下五个基本要素定义：

状态集（S）：代表系统可能的状态集合。智能体在每个时间步骤上都处于某个状态中。
动作集（A）：代表智能体在每个状态下可以采取的动作集合。动作决定了智能体的行为，进而影响环境的状态。
状态转移概率（P）：定义为在状态 $s_t$ 下采取动作 $a_t$ 后转移到状态 $s_{t+1}$ 的概率，记作 $P(s_{t+1} | s_t, a_t)$ 。这体现了环境的动态性和不确定性。
奖励函数（R）：在状态 $s_t$ 下采取动作 $a_t$ 后，获得的即时奖励，记作 $R(s_t, a_t)$ . 奖励函数为智能体的学习过程提供反馈信息。
折扣因子（ $\gamma$ ）：一个在区间 $[0, 1]$ 上的值，决定了未来奖励的当前价值。折扣因子越接近1，未来奖励在当前的影响越大；越接近0，则倾向于关注短期奖励。

MDP的数学形式化

结合以上基本要素，MDP可以用五元组表示为：

MDP = (S, A, P, R, \gamma)

示例：简化的格子世界

考虑一个简单的“格子世界”作为案例。假设有一个5x5的网格，智能体可以在其中移动。我们来看看如何用MDP来描述这个环境。

状态集 $S$ ：该状态集包含25个状态，分别对应网格中的每一个格子。
动作集 $A$ ：智能体在每个格子中可以选择的动作包括“上”、“下”、“左”、“右”四种移动。
状态转移概率 $P$ ：假设智能体在状态 $s_t$ 下选择“右”动作，概率1.0转移到状态 $s_{t+1}$ （即下一个格子），如果边界限制，则状态保持不变。
奖励函数 $R$ ：智能体在到达某个目标格（例如位置(4, 4)）时获得奖励+10；在每个时间步骤上移动的成本为-1。因此，对于每一步 $R(s, a) = -1$ ，在到达目标后是 $R(s, a) = 10$ 。
折扣因子 $\gamma$ ：设定为0.9，以重视更长期的奖励。

总结

通过MDP的框架，我们可以清晰地对智能体的学习过程进行形式化描述。定义状态、动作、转移概率、奖励和折扣因子，使我们能够更好地理解和设计强化学习算法。

在下一篇文章中，我们将进一步探讨MDP的基本组成部分——状态、动作和奖励。这将为我们后续的强化学习算法实现奠定重要基础。

Jupyter AI

4 Markov决策过程（MDP）的定义与基本要素

什么是MDP？

MDP的数学形式化

示例：简化的格子世界

总结

🤖强化学习入门 (滚动鼠标查看)