1. 什么是强化学习?
-
定义:一种机器学习方法,智能体 (agent) 通过与环境交互来学习采取什么行动,以最大化累积奖励 (reward)。
-
区别:
-
在监督学习里,我们要告诉算法“正确答案”;
-
在强化学习里,我们只需设计一个 奖励函数,告诉它“做得好/做得差”,然后让算法自己摸索最佳策略。
-
2. 核心要素
-
状态 (State, s):环境当前的情况。
- 例子:直升机的位置、速度、角度。
-
动作 (Action, a):智能体在当前状态下的决策。
- 例子:操纵直升机遥控杆的幅度和方向。
-
奖励 (Reward, r):环境对智能体行为的反馈。
- 例子:平稳飞行给 +1,摔机给 -1000。