CS231n:12 强化学习 – 码途拾遗

1. 什么是强化学习?

  • 定义:一种机器学习方法,智能体 (agent) 通过与环境交互来学习采取什么行动,以最大化累积奖励 (reward)。

  • 区别

    • 在监督学习里,我们要告诉算法“正确答案”;

    • 在强化学习里,我们只需设计一个 奖励函数,告诉它“做得好/做得差”,然后让算法自己摸索最佳策略。


2. 核心要素

  • 状态 (State, s):环境当前的情况。

    • 例子:直升机的位置、速度、角度。
  • 动作 (Action, a):智能体在当前状态下的决策。

    • 例子:操纵直升机遥控杆的幅度和方向。
  • 奖励 (Reward, r):环境对智能体行为的反馈。

    • 例子:平稳飞行给 +1,摔机给 -1000。

State-Action Value Function