1. 背景

  • 我们希望通过计算 状态–动作值函数 Q(s, a) 来挑选最优动作。
  • 方法是:在某个状态 s 中,选择能让 Q(s, a) 最大的动作 a。
  • 问题是:Q(s, a) 怎么算?
  • 答案:用 Bellman 方程 递归计算。

2. Q(s, a) 的定义

  • Q(s, a) = 从状态 s 开始,执行一次动作 a
    然后之后始终按照 最优策略 行动,
    所能获得的期望回报 (Return)。

3. Bellman 方程

其中:

  • R(s):在当前状态 s 得到的即时奖励 (Immediate reward)
  • γ (gamma):折扣因子,控制未来奖励的重要性
  • s′:在状态 s 下执行动作 a 后到达的下一个状态
  • a′:在新状态 s′ 下可能采取的动作

这也是个 Markov Chain


4. 直观理解

  • 总回报可以分解为两部分:
    1. 当前奖励 R(s) —— 立即得到的收益
    2. 未来奖励 γ × 最优回报 —— 从下一个状态 s′ 开始,遵循最优策略获得的回报

所以:


5. 特殊情况

  • 终止状态 (Terminal state):没有下一个状态,Bellman 方程简化为:

如果环境不再确定,即执行动作 a → 下一状态 s′ 不是确定的,那么称随机(stochastic)环境下的强化学习为随机马尔可夫决策过程 (stochastic MDP)。