强化学习

强化学习是机器学习的一个重要分支,通过与环境交互学习最优决策策略。它是AlphaGo、机器人控制等应用的核心技术。

共 3 篇文章·阅读时间:约45分钟

01强化学习基础

强化学习涉及智能体(Agent)与环境(Environment)的交互。智能体通过试错学习,在每一步获得奖励或惩罚,最终目标是最大化累计奖励。

强化学习核心要素

  • 智能体(Agent):学习和决策的主体
  • 环境(Environment):智能体所处的外部世界
  • 状态(State):环境或智能体的当前状态
  • 动作(Action):智能体可以采取的行为
  • 奖励(Reward):动作后获得的反馈信号
  • 策略(Policy):从状态到动作的映射

马尔可夫决策过程

马尔可夫决策过程(MDP)是强化学习的数学框架。它满足马尔可夫性质:当前状态包含所有历史信息对未来决策的影响。

MDP五元组

  • S:状态空间
  • A:动作空间
  • P:状态转移概率 P(s'|s, a)
  • R:奖励函数 R(s, a, s')
  • γ:折扣因子 [0, 1]

值函数与贝尔曼方程

值函数衡量处于某个状态(或执行某个动作后)的长期价值。它们是强化学习算法的核心。

状态值函数 V(s)

从状态s开始,按照策略π行动,期望获得的累计奖励。

动作值函数 Q(s, a)

从状态s执行动作a,然后按照策略π行动,期望获得的累计奖励。

贝尔曼方程

值函数可以通过递归方式定义:V(s) = R(s, π(s)) + γ∑s'P(s'|s, π(s))V(s')

02经典算法

经典强化学习算法可以分为基于值函数的方法和基于策略的方法。

无模型算法

无模型方法不需要知道环境的状态转移概率,直接从交互经验中学习。

Q学习(Q-Learning)

原理:off-policy学习方法,直接学习最优动作值函数Q(s, a)。
更新公式:Q(s, a) ← Q(s, a) + α[r + γmaxa'Q(s', a') - Q(s, a)]
优点:收敛性好、off-policy
缺点:难以处理连续动作空间

SARSA

原理:on-policy学习方法,使用当前策略选择的动作来更新Q值。
更新公式:Q(s, a) ← Q(s, a) + α[r + γQ(s', a') - Q(s, a)],其中a'是实际执行的下一个动作
优点:更安全的探索
缺点:可能收敛到次优策略

策略梯度方法

策略梯度方法直接优化策略函数,不需要维护值函数。它们在连续动作空间和高维状态空间表现良好。

策略梯度定理

θJ(θ) = Eτ~πθ[∑tθlog πθ(at|st) R(τ)]

常见策略梯度算法

  • REINFORCE:蒙特卡洛策略梯度
  • Actor-Critic:结合值函数的策略梯度
  • A2C/A3C:异步优势 Actor-Critic

03深度强化学习

深度强化学习将深度学习与强化学习结合,使用神经网络来逼近值函数或策略函数,使得高维输入(如图像)成为可能。

DQN及其变体

深度Q网络(DQN)

核心思想:使用深度神经网络逼近Q(s, a)
关键技术
• 经验回放(Experience Replay):打破样本间的时间相关性
• 目标网络(Target Network):提高训练稳定性
成就:在Atari游戏上达到人类水平

Double DQN

解决DQN中Q值过估计的问题,使用两个网络分别选择和评估动作。

Dueling DQN

将Q(s, a)分解为V(s)和A(s, a),更好地估计状态值。

Prioritized Experience Replay

优先回放更有价值的经验样本,提高学习效率。

进阶算法

深度确定性策略梯度(DDPG)

结合DQN和策略梯度的off-policy算法,适用于连续动作空间。

Twin Delayed DDPG(TD3)

DDPG的改进版,通过双 Critic、延迟更新和策略噪声减少过估计。

软演员评论家(SAC)

最大熵强化学习算法,通过最大化策略熵提高探索和稳定性。

近端策略优化(PPO)

信赖域策略优化(TRPO)的简化版,通过剪切损失函数限制策略更新幅度,训练稳定且效果好。

应用领域

  • 游戏:AlphaGo、AlphaStar、游戏AI
  • 机器人:运动控制、物体操控
  • 自动驾驶:决策规划
  • 推荐系统:序列推荐
  • 资源管理:数据中心调度
----