策略数据

策略数据记录模型在特定状态下的行为选择,用于改进策略或进行模仿学习。

策略采样

采样方法

从当前策略中采样的方法:

  • 贪婪采样:选择概率最高的动作
  • 随机采样:按概率分布采样
  • 温度采样:调节采样多样性

数据量要求

策略更新需要足够的采样数据:

  • 覆盖足够的状态空间
  • 包含足够的动作多样性
  • 平衡探索和利用

动作空间

动作空间类型

离散动作空间:有限个可选动作(如游戏操作)
连续动作空间:动作是连续值(如机器人控制)
混合动作空间:同时包含离散和连续动作

价值估计

状态价值函数

V(s) 表示从状态s开始,按照当前策略行动的期望累积奖励。

动作价值函数

Q(s,a) 表示在状态s采取动作a,然后按照当前策略行动的期望累积奖励。

优势函数

A(s,a) = Q(s,a) - V(s) 表示采取动作a相对于平均水平的优势。

策略数据的用途

  • 策略优化:PPO、TRPO等算法
  • 模仿学习:从专家数据学习策略
  • 离线强化学习:从历史数据学习
  • 策略蒸馏:将大策略压缩到小模型
----