优化目标

  • 我们不再最大化某一条序列的回报,而是最大化 期望回报 (Expected Return)
  • 数学表示:
  • 强化学习算法的目标:找到策略 ,使期望折扣回报最大化。

Bellman 方程的改进

  • 确定性环境下:
  • 随机环境下,下一状态 不是固定的,而是概率分布。
    → 因此要对未来回报取期望:
  • 即:即时奖励 + 折扣 × 下一个状态最优回报的期望值

直觉上可以发现Q值会减少,因为失误率增加,回报的期望下降