模型训练(试验性功能)
注意:使用此功能需要配置 OpenAI 及相关第三方平台的跨境网络访问能力,并进行服务器定制化设置,默认为未启用状态。
用户可以导航至 >> 管理后台 > GPT 平台 > 模型训练,使用 GPT 平台的模型训练功能。
模型训练的功能主要包括:
- 帮助
- 上传
- 手动
- 转换
- 数据集
- 训练
帮助
模型训练的功能主要是帮助用户训练您的专属 AI,此功能通过建立一个方便快捷且通俗易懂的工作流程,将生涩难懂的 AI 模型训练知识及其操作步骤简单具象化,达成相关领域知识和技能的入门级学习与应用,以实现在 OpenAI 平台中微调和优化模型。
您可以在在线帮助信息中找到有关如何使用我们的插件微调模型的详细说明。
有 3 种不同的方法可以将数据上传到 OpenAI 并开始微调过程:
- 上传 - 从您的计算机上传您的数据。如果您已经拥有所需格式的数据,则可以使用此工具。
- 手动 - 手动输入您的数据。如果要手动输入数据,可以使用此工具。
- 转换 - 该工具是最受欢迎的工具之一,因为它允许您一键将数据库转换为所需的格式。
上传
用户可以导航至 >> 管理后台 > GPT 平台 > 模型训练 > 上传选项卡,使用 GPT 平台模型训练模块的上传功能。
上传的功能主要包括:
- 上传新文件
- 数据集(jsonp)
- 用途
- 模型基础
- 自定义模型名称
首先,导航到“上传”选项卡。在上传选项卡中,您将能够直接从计算机上传数据集。请注意,OpenAI 只接受 *.jsonl 文件,每个文件的最大上传大小为 100MB。 要上传更大的数据集,您的系统最大文件上传大小设置应设置为至少 100mb。
下面是 *.jsonl 文件的示例:
如您所见,该文件包含提示和完成对。提示就是问题,完成就是答案。
数据集选项卡中有 4 个字段需要填写:
- 文件:单击“选择文件”按钮以选择要上传的文件。正如我之前提到的,OpenAI 只接受*.jsonl文件,每个文件的最大上传大小为 100MB。点击 此处了解 JSON 文件格式。
- 用途:选择用途。目前只有一个选项是“微调”。
- 模型库:选择要微调模型的模型库。您可以从下拉列表中选择。选项有:ada, babbage, curie和davinci。
- 自定义模型名称:输入微调模型的自定义模型名称。这是可选的。如果将其留空,则微调后的模型将以您选择的模型基础命名。我建议您使用自定义模型名称,以便您可以轻松识别微调的模型。
上传文件后,它将显示在“数据集”选项卡上。您可以查看文件的 ID、大小、创建日期、文件名和用途等信息。还有一个“操作”列,您可以在其中对上传的文件执行各种操作,例如创建微调请求、检索内容和删除文件。
看起来像这样:
如果您想查看文件的内容,可以单击“检索内容”按钮。出于安全原因,OpenAI 不允许免费计划用户查看上传文件的内容。如果您想查看文件的内容,则需要将您的帐户升级到付费计划。如果您想要删除文件,请单击“删除”按钮。
如果您到目前为止没有收到任何错误消息,恭喜您,您已成功!您可以开始创建微调。
手动
用户可以导航至 >> 管理后台 > GPT 平台 > 模型训练 > 手动选项卡,使用 GPT 平台模型训练模块的手动功能。
上传的功能主要包括:
- 输入您的数据
- 提示词
- 完成
- 添加更多内容
- 用途
- 模型基础
- 自定义名称
手动数据输入
-
首先,导航到“手动输入”选项卡。
-
在“手动输入”选项卡中,您将能够手动输入数据。
-
假设您想输入商品数据,以下是商品数据的示例:
{"prompt":“物品是手提包。颜色是军绿色。价格为中档。尺寸很小.->","completion","这款时尚的绿色小手提包将为您的外观增添独特的触感,而不会花费您一大笔钱。"}
-
单击“添加更多”按钮以添加更多数据。
-
输入所有数据后,选择一个模型库,给出一个自定义名称(可选),然后单击“上传”。
-
如果您到目前为止没有收到任何错误消息,恭喜您,您已成功!您可以开始创建微调。
转换
用户可以导航至 >> 管理后台 > GPT 平台 > 模型训练 > 转换选项卡,使用 GPT 平台模型训练模块的转换功能。
转换的功能主要包括:
-
转换
- 选择数据
- 文章
- 页面
- 商品
- 动作
- 转换
- 选择数据
-
已完成转换记录
- 文件名称
- 已开始
- 已完成
- 图片大小
- 动作
首先,导航到“数据转换器”选项卡。在“数据转换器”选项卡中,您将能够将整个数据库转换为 JSONL 文件。图例如下:
这里有 3 种不同的选择。
- 转换您的文章:这会将数据库中的所有文章转换为 JSONL 文件。请注意,此过程需要一段时间,具体取决于您拥有的文章数量。如果你有巨大的数据库,系统会把数据集分成小块。
- 转换您的页面:这会将数据库中的所有页面转换为 JSONL 文件。请注意,此过程将需要一段时间,具体取决于您拥有的页面数量。如果你有巨大的数据库,系统会把数据集分成小块。
- 转换您的商品:只有当您启用了商店应用时,您才会看到此功能。这会将数据库中的所有商店商品转换为JSONL文件。请注意,此过程将需要一段时间,具体取决于您拥有的商品数量。如果你有巨大的数据库,系统会把数据集分成小块。
重要提示:如果您有巨大的数据库,转换可能需要更长的时间,并且如果资源不足,您的网站可能会变得无响应。
数据集
用户可以导航至 >> 管理后台 > GPT 平台 > 模型训练 > 数据集选项卡,使用 GPT 平台模型训练模块的数据集功能。
数据集的功能主要包括:
-
文件
- 同步文件
-
上传文件记录
- ID
- 图片大小
- 创建于
- 文件名称
- 用途
- 动作
用户上传文件后,它将显示在“数据集”选项卡上。您可以查看文件的 ID、大小、创建日期、文件名和用途等信息。还有一个“操作”列,您可以在其中对上传的文件执行各种操作,例如创建微调请求、检索内容和删除文件。
如果您想查看文件的内容,可以单击“检索内容”按钮。出于安全原因,OpenAI 不允许免费计划用户查看上传文件的内容。如果您想查看文件的内容,则需要将您的帐户升级到付费计划。如果您想要删除文件,请单击“删除”按钮。
训练
用户可以导航至 >> 管理后台 > GPT 平台 > 模型训练 > 训练选项卡,使用 GPT 平台模型训练模块的训练功能。
训练的功能主要包括:
- 微调模型(Fine Tune)
- 同步微调
- 微调模型记录
- ID
- 对象
- 模型名称
- 创建于
- 傅立叶变换模型(FT Model)
- ID 标识
- 状态
- 已更新
- 训练
- 动作
创建微调请求
要创建微调请求,请单击“数据集”选项卡中的“创建微调”按钮。这将根据上传的数据集在 OpenAI API 上创建微调请求。在创建微调请求之前,这里有一个重要步骤。您需要创建新模型或从下拉列表中选择现有模型。如果选择现有模型,将根据所选模型创建微调的模型。如果创建新模型,将根据上传数据集时选择的模型库创建微调的模型。
下面是微调请求的示例:
那么为什么这一步很重要呢?因为您可以为同一数据集创建多个微调请求。例如,您可以使用不同的模型库为同一数据集创建微调请求。或者,您可以使用不同的模型为同一数据集创建微调请求。这样,您可以比较结果并为您的用例选择最佳模型.
一种可能的情况是,由于不能超过 100MB 的限制,您有巨大的数据集无法上传到 OpenAI。在这种情况下,您可以将数据集拆分为多个文件并将它们上传到 OpenAI。然后,您可以使用相同的模型库为每个文件创建微调请求。这样,您可以基于相同的模型基础但具有不同的数据集创建微调模型。
如果您希望上传同一模型的文件,则需要在点击“创建微调”按钮时从下拉列表中选择模型。
如果您到目前为止没有收到任何错误消息,恭喜您,您已成功!现在,让我们继续查看微调请求。
查看微调状态
要查看微调请求,请单击“查看微调”按钮。这将显示您创建的所有微调请求。 下面是微调请求的示例:
您可以查看微调请求的 ID、创建日期、模型和状态等信息。还有一个“训练”列,您可以在其中对微调请求执行各种操作,例如查看微调请求的详细信息、查看微调模型和删除微调请求。
“训练”列中有 4 个按钮:事件、超参数、结果文件和训练文件。让我们来看看它们中的每一个。
- 事件:此按钮将显示微调请求的事件。您可以查看事件的 ID、创建日期和状态等信息。 请务必注意,微调模型可能需要一些时间,具体取决于数据集的大小和模型的复杂性。 下面是微调请求事件的示例:
如果最后一条消息显示“微调成功”,则微调请求已完成,您的模型已准备好使用。
- 超参数:此按钮将显示微调请求的超参数(Hyper-params)。您可以查看迭代次数(Epochs)、批量大小(batch size)、学习率(Learning rate)和提示损失称重(prompt loss weight)等信息。 下面是微调请求的超参数的示例:
- 结果文件:此按钮将显示微调请求的结果文件。可以从训练模型下载结果文件。 下面是微调请求的结果文件的示例:
结果文件如下所示:
- 训练文件:此按钮将显示微调请求的训练文件。是您上传到 OpenAI 的文件。
如果你走到了这一步,恭喜你,你成功了!现在,让我们继续查看微调的模型。
使用微调模型
假设您已经有一个已完成的微调请求。现在,您想使用微调的模型与网站中的聊天框一起使用。为此,请进入插件设置页面并单击页面对话选项卡。
下面是“页面对话”选项卡的示例:
您将看到您的微调模型现在在下拉列表中可用。您可以选择它并单击“保存更改”按钮。 这意味着从现在开始,您的聊天框将使用您选择的微调模型。
如果在下拉列表中看不到微调模型,请确保微调请求已完成。您也可以单击“同步模型”链接以获取最新模型。
现在前往页面对话并问您的聊天框一个问题。您应该看到聊天框现在使用的是微调模型。
注意:系统不能保证微调后的模型完全适用于您的用例。需要由您来测试它,看看它是否适合您。正如之前提到的,数据集质量非常重要。如果数据集较小,则可能无法获得良好的结果。如果你有一个庞大的数据集,其中包含真正定义的提示和完成,你可能会得到很好的结果。这完全取决于您的使用案例。