问答数据构建
问答数据是最基本的指令数据类型,训练模型的问答能力和知识运用能力。
单轮问答
数据格式
单轮问答包含一个问题和对应的答案,适用于事实性问答场景。
构建方法
- 人工编写:专业人员编写问题和标准答案
- 数据转换:从现有数据集(如阅读理解数据)转换
- LLM生成:使用大模型生成问答对,再人工审核
多轮问答
对话式问答
多轮问答模拟真实对话场景,问题之间存在关联和递进关系。
上下文处理
需要考虑对话历史,后续问题可能引用前面的内容。
知识密集型问答
特点与要求
- 需要专业知识背景
- 答案需要准确可靠
- 可能需要推理和综合
- 适合特定领域训练