强化学习数据

强化学习数据是训练AI智能体的核心，用于学习在环境中做出最优决策的策略。

共 3 篇文章·阅读时间：约30分钟

01奖励建模数据

奖励建模数据用于训练奖励模型，使模型能够预测人类对输出的偏好。

偏好数据集

数据构成

奖励模型训练需要的偏好数据集包含：

提示词：用户输入或任务描述
候选输出：模型的多个响应
偏好标签：人类的选择结果

数据规模

训练一个好的奖励模型通常需要数万到数十万的偏好标注数据。数据量和质量直接影响奖励模型的效果。

奖励模型训练

训练目标

奖励模型学习预测人类偏好的概率，使得被偏好的输出获得更高的奖励分数。

训练方法

Bradley-Terry模型：将成对比较转化为概率预测
交叉熵损失：优化偏好预测的准确性
正则化：防止过拟合

奖励模型评估

准确率

预测人类偏好的准确程度。

一致性

对相似输入给出一致的奖励分数。

泛化能力

对新提示词的预测质量。

02环境交互数据

环境交互数据记录智能体与环境交互的过程，用于学习最优策略。

交互环境设计

环境类型

不同类型的强化学习环境产生不同的交互数据：

模拟环境：游戏、机器人仿真等虚拟环境
真实环境：实际物理世界或生产系统
对话环境：与用户交互的对话场景

环境特征

环境的关键特征影响数据收集和策略学习：

状态空间：环境可能状态的数量和复杂度
动作空间：可用动作的数量和类型
奖励信号：环境提供的反馈信号
转移函数：状态转移的确定性或随机性

轨迹数据收集

轨迹数据结构

每条轨迹是一个状态-动作-奖励序列：

τ = (s₀, a₀, r₁, s₁, a₁, r₂, ..., s_T)

数据收集策略

随机探索：随机选择动作
ε-贪婪：以概率ε探索，否则利用
专家演示：使用专家策略收集数据

状态空间表示

如何表示环境状态对学习效果至关重要：

原始特征：直接使用原始观测
特征工程：设计有效特征
表征学习：学习状态表示

03策略数据

策略数据记录模型在特定状态下的行为选择，用于改进策略或进行模仿学习。

策略采样

采样方法

从当前策略中采样的方法：

贪婪采样：选择概率最高的动作
随机采样：按概率分布采样
温度采样：调节采样多样性

数据量要求

策略更新需要足够的采样数据：

覆盖足够的状态空间
包含足够的动作多样性
平衡探索和利用

动作空间

动作空间类型

离散动作空间：有限个可选动作（如游戏操作）
连续动作空间：动作是连续值（如机器人控制）
混合动作空间：同时包含离散和连续动作

价值估计

状态价值函数

V(s) 表示从状态s开始，按照当前策略行动的期望累积奖励。

动作价值函数

Q(s,a) 表示在状态s采取动作a，然后按照当前策略行动的期望累积奖励。

优势函数

A(s,a) = Q(s,a) - V(s) 表示采取动作a相对于平均水平的优势。

数据处理与应用

策略数据的用途

策略优化：PPO、TRPO等算法
模仿学习：从专家数据学习策略
离线强化学习：从历史数据学习
策略蒸馏：将大策略压缩到小模型

← 偏好数据

数据标注 →