环境交互数据

环境交互数据记录智能体与环境交互的过程,用于学习最优策略。

交互环境设计

环境类型

不同类型的强化学习环境产生不同的交互数据:

  • 模拟环境:游戏、机器人仿真等虚拟环境
  • 真实环境:实际物理世界或生产系统
  • 对话环境:与用户交互的对话场景

环境特征

环境的关键特征影响数据收集和策略学习:

  • 状态空间:环境可能状态的数量和复杂度
  • 动作空间:可用动作的数量和类型
  • 奖励信号:环境提供的反馈信号
  • 转移函数:状态转移的确定性或随机性

轨迹数据收集

轨迹数据结构

每条轨迹是一个状态-动作-奖励序列:

τ = (s₀, a₀, r₁, s₁, a₁, r₂, ..., s_T)

数据收集策略

  • 随机探索:随机选择动作
  • ε-贪婪:以概率ε探索,否则利用
  • 专家演示:使用专家策略收集数据

状态空间表示

如何表示环境状态对学习效果至关重要:

  • 原始特征:直接使用原始观测
  • 特征工程:设计有效特征
  • 表征学习:学习状态表示
----