强化学习基础

强化学习是让智能体通过与环境的交互学习最优决策策略的方法。从AlphaGo到自动驾驶，强化学习在复杂决策任务中展现出强大能力。

学习难度：进阶·阅读时间：约12分钟

什么是强化学习

基本定义

强化学习是一种学习范式：

智能体在环境中采取行动
环境返回奖励和新状态
智能体学习最大化累积奖励的策略

类比：训练宠物

强化学习就像训练宠物：

宠物做对了→给奖励（正向反馈）
宠物做错了→不给奖励或惩罚
宠物逐渐学会正确行为

与其他学习的区别

类型	数据	反馈
监督学习	有标签数据	即时、明确
无监督学习	无标签数据	无外部反馈
强化学习	交互数据	延迟、稀疏

核心要素

基本组成

智能体（Agent）

学习和决策的主体，如游戏AI、机器人。

环境（Environment）

智能体交互的世界，如游戏规则、物理世界。

状态（State）

环境在某一时刻的描述。

动作（Action）

智能体可以采取的行为。

奖励（Reward）

环境对智能体行为的反馈信号。

交互循环

智能体观察状态 s
根据策略选择动作 a
环境执行动作，返回奖励 r 和新状态 s'
智能体更新策略
重复上述过程

马尔可夫决策过程

定义

MDP是强化学习的数学框架：

S：状态空间
A：动作空间
P：转移概率 P(s'|s,a)
R：奖励函数 R(s,a)
γ：折扣因子

马尔可夫性质

当前状态包含所有必要信息：

P(s_t+1 | s_t, a_t, s_t-1, ...) = P(s_t+1 | s_t, a_t)

价值函数

状态价值 V(s)：从状态s开始的期望累积奖励
动作价值 Q(s,a)：在状态s采取动作a后的期望累积奖励

策略

策略π定义了智能体的行为：

确定性策略：π(s) = a
随机策略：π(a|s) = P(a|s)

与监督学习的区别

数据来源

监督学习：静态的标注数据集
强化学习：通过交互动态产生数据

反馈时机

监督学习：每一步都有明确标签
强化学习：奖励可能延迟很久

数据分布

监督学习：训练和测试数据分布相同
强化学习：策略改变会导致数据分布变化

目标

监督学习：最小化预测误差
强化学习：最大化累积奖励

主要挑战

探索与利用

经典的两难问题：

利用：选择已知最好的动作
探索：尝试新动作，可能发现更好的
需要平衡两者

延迟奖励

当前动作的奖励可能很久后才到来
难以判断哪个动作导致了最终结果
信用分配问题

样本效率

需要大量交互才能学会
真实环境交互成本高
模拟与现实之间的差距

应用场景

游戏AI：AlphaGo、游戏NPC
机器人：行走、抓取、导航
自动驾驶：决策规划
推荐系统：长期用户参与度优化
资源调度：数据中心、物流
对话系统：对话策略学习

延伸阅读

----