My Notes

❯

RL, Reinforcement Learning

RL, Reinforcement Learning

Sep 05, 20252 min read

CS231n：12 强化学习 – 码途拾遗

1. 什么是强化学习？

定义：一种机器学习方法，智能体 (agent) 通过与环境交互来学习采取什么行动，以最大化累积奖励 (reward)。
区别：
- 在监督学习里，我们要告诉算法“正确答案”；
- 在强化学习里，我们只需设计一个 奖励函数，告诉它“做得好/做得差”，然后让算法自己摸索最佳策略。

2. 核心要素

状态 (State, s)：环境当前的情况。
- 例子：直升机的位置、速度、角度。
动作 (Action, a)：智能体在当前状态下的决策。
- 例子：操纵直升机遥控杆的幅度和方向。
奖励 (Reward, r)：环境对智能体行为的反馈。
- 例子：平稳飞行给 +1，摔机给 -1000。

State-Action Value Function

Graph View

1. 什么是强化学习？
2. 核心要素

Backlinks

Image Editing

GitHub