1. 背景问题
- 在强化学习中,我们需要在学习 Q(s,a) 的同时,不断与环境交互并选择动作。
- 如果总是依赖当前的 Q 估计值去选动作,可能会陷入“只尝试过部分动作 → 永远不去探索其他动作 → 永远学不到它们可能的价值”的困境。
- 因此,需要一种机制来 平衡探索 (exploration) 与 利用 (exploitation)。
2. 策略选项
-
完全贪心 (Greedy)
- 每次在状态 s 中选择使 Q(s,a) 最大的动作 a。
- 问题:如果某个动作的初始 Q 值被低估,则可能永远不会被尝试。
-
ϵ-greedy 策略
- 大多数情况下(概率 ),选择当前估计 Q 值最大的动作(利用)。
- 少数情况下(概率 ),随机选择一个动作(探索)。
- 例如: → 95% 时间贪心,5% 时间随机。
3. 为什么需要随机探索?
- 避免神经网络初始权重导致某些动作被“误判”为永远不好。
- 通过偶尔尝试,可以发现潜在的有价值动作(如点燃主发动机)。
- 这类随机尝试被称为 探索步骤 (exploration step)。
4. 利用 vs. 探索
- 利用 (Exploitation):选择已知 Q 值最高的动作,尽量获取最大回报。
- 探索 (Exploration):随机尝试动作,以获取更多经验。
- 这就是常说的 探索–利用权衡 (exploration vs. exploitation trade-off)。
5. 名称与解释
- 尽管策略在大部分时间是“贪心”的,但历史上仍称为 ϵ-greedy 策略。
- 更准确的名字可能是 “1-ϵ greedy”,但约定俗成沿用了 ϵ-greedy。
6. 动态调整 ϵ
- 实践中常用 逐渐衰减的 ϵ:
- 初期:ϵ 较大(甚至 = 1.0),几乎完全随机探索。
- 随着训练进行:ϵ 逐渐减小至较小值(如 0.01),更多依赖学习到的 Q 值做出决策。
- 好处:先充分探索,再逐步稳定利用。
7. 超参数敏感性
- 在强化学习中,ϵ 的取值对学习速度和效果非常敏感。
- ϵ 设置不当 → 学习可能变慢 10 倍甚至 100 倍。
- 相比监督学习,RL 更“挑剔”,调参更困难。