用户数据收集

用户交互产生的数据是训练对话模型的重要来源，但需要特别注意隐私保护和合规要求。

数据来源类型

用户对模型输出的评价和反馈，包括点赞/点踩、修改建议、投诉举报等，是改进模型的重要依据。

用户与模型的真实对话记录，包含丰富的问题类型和交互模式，对训练对话模型非常有价值。

用户的使用行为，如查询频率、停留时间、跳出率等，可以帮助了解模型在实际场景中的表现。

移除或匿名化个人身份信息（PII），如姓名、电话、地址等。

明确告知用户数据使用目的，获取用户授权同意。

只收集必要的数据，避免过度收集。

用户数据质量参差不齐，需要建立筛选和审核机制：