My Notes

❯

ϵ greedy (Epsilon greedy Policy)

ϵ-greedy (Epsilon-greedy Policy)

Sep 05, 20253 min read

1. 背景问题

在强化学习中，我们需要在学习 Q(s,a) 的同时，不断与环境交互并选择动作。
如果总是依赖当前的 Q 估计值去选动作，可能会陷入“只尝试过部分动作 → 永远不去探索其他动作 → 永远学不到它们可能的价值”的困境。
因此，需要一种机制来 平衡探索 (exploration) 与 利用 (exploitation)。

2. 策略选项

完全贪心 (Greedy)
- 每次在状态 s 中选择使 Q(s,a) 最大的动作 a。
- 问题：如果某个动作的初始 Q 值被低估，则可能永远不会被尝试。
ϵ-greedy 策略
- 大多数情况下（概率 $1 - ϵ$ ），选择当前估计 Q 值最大的动作（利用）。
- 少数情况下（概率 $ϵ$ ），随机选择一个动作（探索）。
- 例如： $ϵ = 0.05$ → 95% 时间贪心，5% 时间随机。

3. 为什么需要随机探索？

避免神经网络初始权重导致某些动作被“误判”为永远不好。
通过偶尔尝试，可以发现潜在的有价值动作（如点燃主发动机）。
这类随机尝试被称为 探索步骤 (exploration step)。

4. 利用 vs. 探索

利用 (Exploitation)：选择已知 Q 值最高的动作，尽量获取最大回报。
探索 (Exploration)：随机尝试动作，以获取更多经验。
这就是常说的 探索–利用权衡 (exploration vs. exploitation trade-off)。

5. 名称与解释

尽管策略在大部分时间是“贪心”的，但历史上仍称为 ϵ-greedy 策略。
更准确的名字可能是 “1-ϵ greedy”，但约定俗成沿用了 ϵ-greedy。

6. 动态调整 ϵ

实践中常用 逐渐衰减的 ϵ：
- 初期：ϵ 较大（甚至 = 1.0），几乎完全随机探索。
- 随着训练进行：ϵ 逐渐减小至较小值（如 0.01），更多依赖学习到的 Q 值做出决策。
好处：先充分探索，再逐步稳定利用。

7. 超参数敏感性

在强化学习中，ϵ 的取值对学习速度和效果非常敏感。
ϵ 设置不当 → 学习可能变慢 10 倍甚至 100 倍。
相比监督学习，RL 更“挑剔”，调参更困难。

Graph View

1. 背景问题
2. 策略选项
3. 为什么需要随机探索？
4. 利用 vs. 探索
5. 名称与解释
6. 动态调整 ϵ
7. 超参数敏感性

Backlinks

State-Action Value Function

GitHub