1. 背景
- 我们希望通过计算 状态–动作值函数 Q(s, a) 来挑选最优动作。
- 方法是:在某个状态 s 中,选择能让 Q(s, a) 最大的动作 a。
- 问题是:Q(s, a) 怎么算?
- 答案:用 Bellman 方程 递归计算。
2. Q(s, a) 的定义
- Q(s, a) = 从状态 s 开始,执行一次动作 a,
然后之后始终按照 最优策略 行动,
所能获得的期望回报 (Return)。
3. Bellman 方程
其中:
- R(s):在当前状态 s 得到的即时奖励 (Immediate reward)
- γ (gamma):折扣因子,控制未来奖励的重要性
- s′:在状态 s 下执行动作 a 后到达的下一个状态
- a′:在新状态 s′ 下可能采取的动作
这也是个 Markov Chain
4. 直观理解
- 总回报可以分解为两部分:
- 当前奖励 R(s) —— 立即得到的收益
- 未来奖励 γ × 最优回报 —— 从下一个状态 s′ 开始,遵循最优策略获得的回报
所以:
5. 特殊情况
- 终止状态 (Terminal state):没有下一个状态,Bellman 方程简化为:
如果环境不再确定,即执行动作 a → 下一状态 s′ 不是确定的,那么称随机(stochastic)环境下的强化学习为随机马尔可夫决策过程 (stochastic MDP)。