强化学习基础

强化学习是让智能体通过与环境的交互学习最优决策策略的方法。从AlphaGo到自动驾驶,强化学习在复杂决策任务中展现出强大能力。

学习难度:进阶·阅读时间:约12分钟

什么是强化学习

基本定义

强化学习是一种学习范式:

  • 智能体在环境中采取行动
  • 环境返回奖励和新状态
  • 智能体学习最大化累积奖励的策略

类比:训练宠物

强化学习就像训练宠物:

  • 宠物做对了→给奖励(正向反馈)
  • 宠物做错了→不给奖励或惩罚
  • 宠物逐渐学会正确行为

与其他学习的区别

类型数据反馈
监督学习有标签数据即时、明确
无监督学习无标签数据无外部反馈
强化学习交互数据延迟、稀疏

核心要素

基本组成

智能体(Agent)

学习和决策的主体,如游戏AI、机器人。

环境(Environment)

智能体交互的世界,如游戏规则、物理世界。

状态(State)

环境在某一时刻的描述。

动作(Action)

智能体可以采取的行为。

奖励(Reward)

环境对智能体行为的反馈信号。

交互循环

  1. 智能体观察状态 s
  2. 根据策略选择动作 a
  3. 环境执行动作,返回奖励 r 和新状态 s'
  4. 智能体更新策略
  5. 重复上述过程

马尔可夫决策过程

定义

MDP是强化学习的数学框架:

  • S:状态空间
  • A:动作空间
  • P:转移概率 P(s'|s,a)
  • R:奖励函数 R(s,a)
  • γ:折扣因子

马尔可夫性质

当前状态包含所有必要信息:

P(s_t+1 | s_t, a_t, s_t-1, ...) = P(s_t+1 | s_t, a_t)

价值函数

  • 状态价值 V(s):从状态s开始的期望累积奖励
  • 动作价值 Q(s,a):在状态s采取动作a后的期望累积奖励

策略

策略π定义了智能体的行为:

  • 确定性策略:π(s) = a
  • 随机策略:π(a|s) = P(a|s)

与监督学习的区别

数据来源

  • 监督学习:静态的标注数据集
  • 强化学习:通过交互动态产生数据

反馈时机

  • 监督学习:每一步都有明确标签
  • 强化学习:奖励可能延迟很久

数据分布

  • 监督学习:训练和测试数据分布相同
  • 强化学习:策略改变会导致数据分布变化

目标

  • 监督学习:最小化预测误差
  • 强化学习:最大化累积奖励

主要挑战

探索与利用

经典的两难问题:

  • 利用:选择已知最好的动作
  • 探索:尝试新动作,可能发现更好的
  • 需要平衡两者

延迟奖励

  • 当前动作的奖励可能很久后才到来
  • 难以判断哪个动作导致了最终结果
  • 信用分配问题

样本效率

  • 需要大量交互才能学会
  • 真实环境交互成本高
  • 模拟与现实之间的差距

应用场景

  • 游戏AI:AlphaGo、游戏NPC
  • 机器人:行走、抓取、导航
  • 自动驾驶:决策规划
  • 推荐系统:长期用户参与度优化
  • 资源调度:数据中心、物流
  • 对话系统:对话策略学习
----