1. 背景问题

  • 在强化学习中,我们需要在学习 Q(s,a) 的同时,不断与环境交互并选择动作。
  • 如果总是依赖当前的 Q 估计值去选动作,可能会陷入“只尝试过部分动作 → 永远不去探索其他动作 → 永远学不到它们可能的价值”的困境。
  • 因此,需要一种机制来 平衡探索 (exploration)利用 (exploitation)

2. 策略选项

  1. 完全贪心 (Greedy)

    • 每次在状态 s 中选择使 Q(s,a) 最大的动作 a。
    • 问题:如果某个动作的初始 Q 值被低估,则可能永远不会被尝试。
  2. ϵ-greedy 策略

    • 大多数情况下(概率 ),选择当前估计 Q 值最大的动作(利用)。
    • 少数情况下(概率 ),随机选择一个动作(探索)。
    • 例如: → 95% 时间贪心,5% 时间随机。

3. 为什么需要随机探索?

  • 避免神经网络初始权重导致某些动作被“误判”为永远不好。
  • 通过偶尔尝试,可以发现潜在的有价值动作(如点燃主发动机)。
  • 这类随机尝试被称为 探索步骤 (exploration step)

4. 利用 vs. 探索

  • 利用 (Exploitation):选择已知 Q 值最高的动作,尽量获取最大回报。
  • 探索 (Exploration):随机尝试动作,以获取更多经验。
  • 这就是常说的 探索–利用权衡 (exploration vs. exploitation trade-off)

5. 名称与解释

  • 尽管策略在大部分时间是“贪心”的,但历史上仍称为 ϵ-greedy 策略
  • 更准确的名字可能是 “1-ϵ greedy”,但约定俗成沿用了 ϵ-greedy

6. 动态调整 ϵ

  • 实践中常用 逐渐衰减的 ϵ
    • 初期:ϵ 较大(甚至 = 1.0),几乎完全随机探索。
    • 随着训练进行:ϵ 逐渐减小至较小值(如 0.01),更多依赖学习到的 Q 值做出决策。
  • 好处:先充分探索,再逐步稳定利用。

7. 超参数敏感性

  • 在强化学习中,ϵ 的取值对学习速度和效果非常敏感。
  • ϵ 设置不当 → 学习可能变慢 10 倍甚至 100 倍。
  • 相比监督学习,RL 更“挑剔”,调参更困难。