强化学习基础
强化学习是让智能体通过与环境的交互学习最优决策策略的方法。从AlphaGo到自动驾驶,强化学习在复杂决策任务中展现出强大能力。
学习难度:进阶·阅读时间:约12分钟
什么是强化学习
基本定义
强化学习是一种学习范式:
- 智能体在环境中采取行动
- 环境返回奖励和新状态
- 智能体学习最大化累积奖励的策略
类比:训练宠物
强化学习就像训练宠物:
- 宠物做对了→给奖励(正向反馈)
- 宠物做错了→不给奖励或惩罚
- 宠物逐渐学会正确行为
与其他学习的区别
| 类型 | 数据 | 反馈 |
|---|---|---|
| 监督学习 | 有标签数据 | 即时、明确 |
| 无监督学习 | 无标签数据 | 无外部反馈 |
| 强化学习 | 交互数据 | 延迟、稀疏 |
核心要素
基本组成
智能体(Agent)
学习和决策的主体,如游戏AI、机器人。
环境(Environment)
智能体交互的世界,如游戏规则、物理世界。
状态(State)
环境在某一时刻的描述。
动作(Action)
智能体可以采取的行为。
奖励(Reward)
环境对智能体行为的反馈信号。
交互循环
- 智能体观察状态 s
- 根据策略选择动作 a
- 环境执行动作,返回奖励 r 和新状态 s'
- 智能体更新策略
- 重复上述过程
马尔可夫决策过程
定义
MDP是强化学习的数学框架:
- S:状态空间
- A:动作空间
- P:转移概率 P(s'|s,a)
- R:奖励函数 R(s,a)
- γ:折扣因子
马尔可夫性质
当前状态包含所有必要信息:
P(s_t+1 | s_t, a_t, s_t-1, ...) = P(s_t+1 | s_t, a_t)
价值函数
- 状态价值 V(s):从状态s开始的期望累积奖励
- 动作价值 Q(s,a):在状态s采取动作a后的期望累积奖励
策略
策略π定义了智能体的行为:
- 确定性策略:π(s) = a
- 随机策略:π(a|s) = P(a|s)
与监督学习的区别
数据来源
- 监督学习:静态的标注数据集
- 强化学习:通过交互动态产生数据
反馈时机
- 监督学习:每一步都有明确标签
- 强化学习:奖励可能延迟很久
数据分布
- 监督学习:训练和测试数据分布相同
- 强化学习:策略改变会导致数据分布变化
目标
- 监督学习:最小化预测误差
- 强化学习:最大化累积奖励
主要挑战
探索与利用
经典的两难问题:
- 利用:选择已知最好的动作
- 探索:尝试新动作,可能发现更好的
- 需要平衡两者
延迟奖励
- 当前动作的奖励可能很久后才到来
- 难以判断哪个动作导致了最终结果
- 信用分配问题
样本效率
- 需要大量交互才能学会
- 真实环境交互成本高
- 模拟与现实之间的差距
应用场景
- 游戏AI:AlphaGo、游戏NPC
- 机器人:行走、抓取、导航
- 自动驾驶:决策规划
- 推荐系统:长期用户参与度优化
- 资源调度:数据中心、物流
- 对话系统:对话策略学习