要有效地进行微调,您需要正确设置数据格式,以便为模型提供关于从何处开始和停止生成文本的线索。
指标字符串
唆使符字符串是您附加到提示末尾的符号或符号序列,以告知模型您希望它在此字符串以后开始生成文本。
例如,如果您希望模型将项目分类为色彩,您可使用像“->”这样的唆使符字符串。数据集中的提示以下所示:
-
'香蕉->'
-
'石灰->'
-
'番茄->'
您可使用任何字符串作为唆使符字符串,只要它没有出现在数据集中的其他任何地方。我们建议使用“\n###\n”。
停止序列
停止序列是另外一个特殊符号或符号序列,用于告知模型您希望它在该点以后停止生成文本。
例如,如果您希望模型生成一个单词作为补全,您可使用“\n”(换行符)或“.”等停止序列。(period) 来标记完成的结束,像这样:
-
'提示':'香蕉->','完成':'黄色\ n'
-
'提示':'石灰->','完成':'绿色\ n'
-
'提示':'番茄->','完成':'红色\ n'
调用模型
调用模型时,您应当使用数据集中使用的相同符号。如果您使用上面的数据集,您应当使用 '\n' 作为停止序列。您还应当将“->”作为唆使符字符串附加到您的提示中(例如提示:“柠檬 ->”)
对唆使符字符串和停止序列使用一致且唯一的符号非常重要,并且它们不会出现在数据中的其他任何地方。否则,模型可能会混淆并生成不需要的或不正确的文本。
额外推荐
我们还建议在输出的开头附加一个空格字符。
准备好数据集后,您还可使用我们的命令行工具来帮助格式化数据集。
ChatGPT中国体验版https://go.guigege.cn
来源:https://www.huanp.com/idc/140700.html
声明:欢迎分享本文,转载请保留出处!
声明:欢迎分享本文,转载请保留出处!