OpenAI如何格式化我的微调数据?

原创 admin  2023-04-14 21:05  阅读 21 次

要有效地进行微调,您需要正确设置数据格式,以便为模型提供关于从何处开始和停止生成文本的线索。

指标字符串

唆使符字符串是您附加到提示末尾的符号或符号序列,以告知模型您希望它在此字符串以后开始生成文本。

例如,如果您希望模型将项目分类为色彩,您可使用像“->”这样的唆使符字符串。数据集中的提示以下所示:

  • '香蕉->'

  • '石灰->'

  • '番茄->'

您可使用任何字符串作为唆使符字符串,只要它没有出现在数据集中的其他任何地方。我们建议使用“\n###\n”。

停止序列

停止序列是另外一个特殊符号或符号序列,用于告知模型您希望它在该点以后停止生成文本。

例如,如果您希望模型生成一个单词作为补全,您可使用“\n”(换行符)或“.”等停止序列。(period) 来标记完成的结束,像这样:

  • '提示':'香蕉->','完成':'黄色\ n'

  • '提示':'石灰->','完成':'绿色\ n'

  • '提示':'番茄->','完成':'红色\ n'

调用模型

调用模型时,您应当使用数据集中使用的相同符号。如果您使用上面的数据集,您应当使用 '\n' 作为停止序列。您还应当将“->”作为唆使符字符串附加到您的提示中(例如提示:“柠檬 ->”)

对唆使符字符串和停止序列使用一致且唯一的符号非常重要,并且它们不会出现在数据中的其他任何地方。否则,模型可能会混淆并生成不需要的或不正确的文本。

额外推荐

我们还建议在输出的开头附加一个空格字符。

准备好数据集后,您还可使用我们的命令行工具来帮助格式化数据集。

ChatGPT中国体验版https://go.guigege.cn

来源:https://www.huanp.com/idc/140700.html
声明:欢迎分享本文,转载请保留出处!

发表评论


表情