强化学习

强化学习是机器学习的一个重要分支，通过与环境交互学习最优决策策略。它是AlphaGo、机器人控制等应用的核心技术。

共 3 篇文章·阅读时间：约45分钟

01强化学习基础

强化学习涉及智能体（Agent）与环境（Environment）的交互。智能体通过试错学习，在每一步获得奖励或惩罚，最终目标是最大化累计奖励。

强化学习核心要素

智能体（Agent）：学习和决策的主体
环境（Environment）：智能体所处的外部世界
状态（State）：环境或智能体的当前状态
动作（Action）：智能体可以采取的行为
奖励（Reward）：动作后获得的反馈信号
策略（Policy）：从状态到动作的映射

马尔可夫决策过程

马尔可夫决策过程（MDP）是强化学习的数学框架。它满足马尔可夫性质：当前状态包含所有历史信息对未来决策的影响。

MDP五元组

S：状态空间
A：动作空间
P：状态转移概率 P(s'|s, a)
R：奖励函数 R(s, a, s')
γ：折扣因子 [0, 1]

值函数与贝尔曼方程

值函数衡量处于某个状态（或执行某个动作后）的长期价值。它们是强化学习算法的核心。

状态值函数 V(s)

从状态s开始，按照策略π行动，期望获得的累计奖励。

动作值函数 Q(s, a)

从状态s执行动作a，然后按照策略π行动，期望获得的累计奖励。

贝尔曼方程

值函数可以通过递归方式定义：V(s) = R(s, π(s)) + γ∑_s'P(s'|s, π(s))V(s')

02经典算法

经典强化学习算法可以分为基于值函数的方法和基于策略的方法。

无模型算法

无模型方法不需要知道环境的状态转移概率，直接从交互经验中学习。

Q学习（Q-Learning）

原理：off-policy学习方法，直接学习最优动作值函数Q(s, a)。
更新公式：Q(s, a) ← Q(s, a) + α[r + γmax_a'Q(s', a') - Q(s, a)]
优点：收敛性好、off-policy
缺点：难以处理连续动作空间

SARSA

原理：on-policy学习方法，使用当前策略选择的动作来更新Q值。
更新公式：Q(s, a) ← Q(s, a) + α[r + γQ(s', a') - Q(s, a)]，其中a'是实际执行的下一个动作
优点：更安全的探索
缺点：可能收敛到次优策略

策略梯度方法

策略梯度方法直接优化策略函数，不需要维护值函数。它们在连续动作空间和高维状态空间表现良好。

策略梯度定理

∇_θJ(θ) = E_{τ~π_θ}[∑_t∇_θlog π_θ(a_t|s_t) R(τ)]

常见策略梯度算法

REINFORCE：蒙特卡洛策略梯度
Actor-Critic：结合值函数的策略梯度
A2C/A3C：异步优势 Actor-Critic

03深度强化学习

深度强化学习将深度学习与强化学习结合，使用神经网络来逼近值函数或策略函数，使得高维输入（如图像）成为可能。

DQN及其变体

深度Q网络（DQN）

核心思想：使用深度神经网络逼近Q(s, a)
关键技术：
• 经验回放（Experience Replay）：打破样本间的时间相关性
• 目标网络（Target Network）：提高训练稳定性
成就：在Atari游戏上达到人类水平

Double DQN

解决DQN中Q值过估计的问题，使用两个网络分别选择和评估动作。

Dueling DQN

将Q(s, a)分解为V(s)和A(s, a)，更好地估计状态值。

Prioritized Experience Replay

优先回放更有价值的经验样本，提高学习效率。

进阶算法

深度确定性策略梯度（DDPG）

结合DQN和策略梯度的off-policy算法，适用于连续动作空间。

Twin Delayed DDPG（TD3）

DDPG的改进版，通过双 Critic、延迟更新和策略噪声减少过估计。

软演员评论家（SAC）

最大熵强化学习算法，通过最大化策略熵提高探索和稳定性。

近端策略优化（PPO）

信赖域策略优化（TRPO）的简化版，通过剪切损失函数限制策略更新幅度，训练稳定且效果好。

应用领域

游戏：AlphaGo、AlphaStar、游戏AI
机器人：运动控制、物体操控
自动驾驶：决策规划
推荐系统：序列推荐
资源管理：数据中心调度

← 无监督学习

模型评估 →