My Notes

❯

Bellman equation

Bellman equation

Sep 05, 20252 min read

1. 背景

我们希望通过计算 状态–动作值函数 Q(s, a) 来挑选最优动作。
方法是：在某个状态 s 中，选择能让 Q(s, a) 最大的动作 a。
问题是：Q(s, a) 怎么算？
答案：用 Bellman 方程 递归计算。

2. Q(s, a) 的定义

Q(s, a) = 从状态 s 开始，执行一次动作 a，
然后之后始终按照 最优策略 行动，
所能获得的期望回报 (Return)。

3. Bellman 方程

Q (s, a) = R (s) + γ a^{'} max Q (s^{'}, a^{'})

其中：

R(s)：在当前状态 s 得到的即时奖励 (Immediate reward)
γ (gamma)：折扣因子，控制未来奖励的重要性
s′：在状态 s 下执行动作 a 后到达的下一个状态
a′：在新状态 s′ 下可能采取的动作

这也是个 Markov Chain

4. 直观理解

总回报可以分解为两部分：
1. 当前奖励 R(s) —— 立即得到的收益
2. 未来奖励 γ × 最优回报 —— 从下一个状态 s′ 开始，遵循最优策略获得的回报

所以：

总回报 = 即时奖励 + 折扣后的未来最优回报

5. 特殊情况

终止状态 (Terminal state)：没有下一个状态，Bellman 方程简化为：

Q (s, a) = R (s)

如果环境不再确定，即执行动作 a → 下一状态 s′ 不是确定的，那么称随机（stochastic）环境下的强化学习为随机马尔可夫决策过程 (stochastic MDP)。

Graph View

1. 背景
2. Q(s, a) 的定义
3. Bellman 方程
4. 直观理解
5. 特殊情况

Backlinks

State-Action Value Function

GitHub