策略数据

策略数据记录模型在特定状态下的行为选择，用于改进策略或进行模仿学习。

策略采样

从当前策略中采样的方法：

策略更新需要足够的采样数据：

动作空间类型

离散动作空间：有限个可选动作（如游戏操作）
连续动作空间：动作是连续值（如机器人控制）
混合动作空间：同时包含离散和连续动作

V(s) 表示从状态s开始，按照当前策略行动的期望累积奖励。

Q(s,a) 表示在状态s采取动作a，然后按照当前策略行动的期望累积奖励。

A(s,a) = Q(s,a) - V(s) 表示采取动作a相对于平均水平的优势。