强化学习
强化学习是机器学习的一个重要分支,通过与环境交互学习最优决策策略。它是AlphaGo、机器人控制等应用的核心技术。
01强化学习基础
强化学习涉及智能体(Agent)与环境(Environment)的交互。智能体通过试错学习,在每一步获得奖励或惩罚,最终目标是最大化累计奖励。
强化学习核心要素
- 智能体(Agent):学习和决策的主体
- 环境(Environment):智能体所处的外部世界
- 状态(State):环境或智能体的当前状态
- 动作(Action):智能体可以采取的行为
- 奖励(Reward):动作后获得的反馈信号
- 策略(Policy):从状态到动作的映射
马尔可夫决策过程
马尔可夫决策过程(MDP)是强化学习的数学框架。它满足马尔可夫性质:当前状态包含所有历史信息对未来决策的影响。
MDP五元组
- S:状态空间
- A:动作空间
- P:状态转移概率 P(s'|s, a)
- R:奖励函数 R(s, a, s')
- γ:折扣因子 [0, 1]
值函数与贝尔曼方程
值函数衡量处于某个状态(或执行某个动作后)的长期价值。它们是强化学习算法的核心。
状态值函数 V(s)
从状态s开始,按照策略π行动,期望获得的累计奖励。
动作值函数 Q(s, a)
从状态s执行动作a,然后按照策略π行动,期望获得的累计奖励。
贝尔曼方程
值函数可以通过递归方式定义:V(s) = R(s, π(s)) + γ∑s'P(s'|s, π(s))V(s')
02经典算法
经典强化学习算法可以分为基于值函数的方法和基于策略的方法。
无模型算法
无模型方法不需要知道环境的状态转移概率,直接从交互经验中学习。
Q学习(Q-Learning)
原理:off-policy学习方法,直接学习最优动作值函数Q(s, a)。
更新公式:Q(s, a) ← Q(s, a) + α[r + γmaxa'Q(s', a') - Q(s, a)]
优点:收敛性好、off-policy
缺点:难以处理连续动作空间
SARSA
原理:on-policy学习方法,使用当前策略选择的动作来更新Q值。
更新公式:Q(s, a) ← Q(s, a) + α[r + γQ(s', a') - Q(s, a)],其中a'是实际执行的下一个动作
优点:更安全的探索
缺点:可能收敛到次优策略
策略梯度方法
策略梯度方法直接优化策略函数,不需要维护值函数。它们在连续动作空间和高维状态空间表现良好。
策略梯度定理
∇θJ(θ) = Eτ~πθ[∑t∇θlog πθ(at|st) R(τ)]
常见策略梯度算法
- REINFORCE:蒙特卡洛策略梯度
- Actor-Critic:结合值函数的策略梯度
- A2C/A3C:异步优势 Actor-Critic
03深度强化学习
深度强化学习将深度学习与强化学习结合,使用神经网络来逼近值函数或策略函数,使得高维输入(如图像)成为可能。
DQN及其变体
深度Q网络(DQN)
核心思想:使用深度神经网络逼近Q(s, a)
关键技术:
• 经验回放(Experience Replay):打破样本间的时间相关性
• 目标网络(Target Network):提高训练稳定性
成就:在Atari游戏上达到人类水平
Double DQN
解决DQN中Q值过估计的问题,使用两个网络分别选择和评估动作。
Dueling DQN
将Q(s, a)分解为V(s)和A(s, a),更好地估计状态值。
Prioritized Experience Replay
优先回放更有价值的经验样本,提高学习效率。
进阶算法
深度确定性策略梯度(DDPG)
结合DQN和策略梯度的off-policy算法,适用于连续动作空间。
Twin Delayed DDPG(TD3)
DDPG的改进版,通过双 Critic、延迟更新和策略噪声减少过估计。
软演员评论家(SAC)
最大熵强化学习算法,通过最大化策略熵提高探索和稳定性。
近端策略优化(PPO)
信赖域策略优化(TRPO)的简化版,通过剪切损失函数限制策略更新幅度,训练稳定且效果好。
应用领域
- 游戏:AlphaGo、AlphaStar、游戏AI
- 机器人:运动控制、物体操控
- 自动驾驶:决策规划
- 推荐系统:序列推荐
- 资源管理:数据中心调度