优化目标
- 我们不再最大化某一条序列的回报,而是最大化 期望回报 (Expected Return)。
- 数学表示:
- 强化学习算法的目标:找到策略 ,使期望折扣回报最大化。
Bellman 方程的改进
- 确定性环境下:
- 随机环境下,下一状态 不是固定的,而是概率分布。
→ 因此要对未来回报取期望:
- 即:即时奖励 + 折扣 × 下一个状态最优回报的期望值。
直觉上可以发现Q值会减少,因为失误率增加,回报的期望下降
优化目标
Bellman 方程的改进
直觉上可以发现Q值会减少,因为失误率增加,回报的期望下降