任务型数据
任务型数据训练模型完成特定任务的能力,如文本摘要、翻译、代码生成等。
摘要任务数据
数据格式
包含原文和对应的摘要,摘要可以是抽取式或生成式。
数据来源
- 新闻文章及其标题
- 学术论文及其摘要
- 会议记录及其纪要
翻译任务数据
平行语料
翻译数据需要高质量的平行语料,即原文和译文的对照。
多语言数据
构建多语言翻译能力需要覆盖多种语言对的翻译数据。
代码任务数据
代码生成
根据自然语言描述生成代码。
代码解释
解释代码的功能和逻辑。
代码调试
识别和修复代码中的错误。
质量要求
- 任务描述准确清晰
- 输出结果正确完整
- 输入输出格式规范
- 覆盖不同难度和复杂度