问答数据构建

问答数据是最基本的指令数据类型,训练模型的问答能力和知识运用能力。

单轮问答

数据格式

单轮问答包含一个问题和对应的答案,适用于事实性问答场景。

构建方法

  • 人工编写:专业人员编写问题和标准答案
  • 数据转换:从现有数据集(如阅读理解数据)转换
  • LLM生成:使用大模型生成问答对,再人工审核

多轮问答

对话式问答

多轮问答模拟真实对话场景,问题之间存在关联和递进关系。

上下文处理

需要考虑对话历史,后续问题可能引用前面的内容。

知识密集型问答

特点与要求

  • 需要专业知识背景
  • 答案需要准确可靠
  • 可能需要推理和综合
  • 适合特定领域训练
----