任务型数据

任务型数据训练模型完成特定任务的能力,如文本摘要、翻译、代码生成等。

摘要任务数据

数据格式

包含原文和对应的摘要,摘要可以是抽取式或生成式。

数据来源

  • 新闻文章及其标题
  • 学术论文及其摘要
  • 会议记录及其纪要

翻译任务数据

平行语料

翻译数据需要高质量的平行语料,即原文和译文的对照。

多语言数据

构建多语言翻译能力需要覆盖多种语言对的翻译数据。

代码任务数据

代码生成

根据自然语言描述生成代码。

代码解释

解释代码的功能和逻辑。

代码调试

识别和修复代码中的错误。

质量要求

  • 任务描述准确清晰
  • 输出结果正确完整
  • 输入输出格式规范
  • 覆盖不同难度和复杂度
----