返回第一百一十七章 平台期  路大头首页

关灯 护眼     字体:

上一页 目录 下一页

开几个测试用例,几个使用不同编程语言在不同应用场景下进行的代码生成,生成完之后再放进bugkiller扫一遍,看错误率。韩路一同时打开视界看了看模型直接生成的代码。

生成质量确实上了一个台阶。

但赵文渊的表情不像是来报喜的。

他翻到下一页,是一张更详细的曲线。五轮训练的提升幅度标得很清楚:第一轮上次会议分享过了,768;第二轮到第三轮,提了5个点;第三轮到第四轮,28个点;第四轮到第五轮,01个点。

曲线在快速变平。

“847已经是后训练能做到的极限了,”赵文渊说,“再往上走,就不是加数据加显卡能解决的问题了。”

韩路一看着那条曲线。

他想起上次开会的时候,赵文渊在会议室投屏上放的同一条s形曲线。当时的状况,准确率还处在scalgw的前半段。

数据点在曲线的极速上升阶段。

现在数据点走到高原了,大力出奇迹,这招在这不再好使了。

“也就是说,”韩路一的手点在办公桌上,“我们用开源底座做微调这条路,走到头了。”

“不是走到头了,是走到平台了。”赵文渊纠正他,“就像减肥,平台期是可以突破的,但是你得换一种方式才能突破。”

“什么方式?”

赵文渊合上笔记本,从腋下抽出那个本子。韩路一瞄了一眼,牛皮纸封面,上面用黑笔密密麻麻写了一堆英文缩写和箭头,像上学时候的笔记本。

赵文渊翻到其中一页,把本子摊在茶几上。

“三条路。”

他指着第一行。

“第一条,继续走rlhf,强化学习加人类反馈。”

rlhf,rercentlearngfrohuanfeedback,强化学习加人类反馈。简单说,就是让真实用户来当裁判,用户觉得生成得好,模型记住;用户觉得不行,模型改。久而久之,模型就能学会“用户认为好的内容”。

韩路一没说话,等他往下讲。

“思路很简单,开物上线这几个月,真实用户的操作数据我们全都留着。用户觉得生成得好的,点了采纳;觉得不行的,手动改了或者重新生成。这些行为本身就是最好的反馈信号。用这些数据训一个奖励模型,然后用强化学习让天工去拟合这个奖励函数。”

“有别于之前我们基于bugkiller数据的反馈训练,这种训练可以让模型更加理解用户输入所对应的意图,这是超越bug修复的部分,更偏向于语义理解。”

“成本呢?”

“标注基础设施加上奖励模型训练和迭代,大概五百到一千万,时间三到六个月。上限嘛,”赵文渊想了想,“估计能再提三到五个点,到八十八左右。”

“这个提升不算大。”

“在这个阶段每一点提升都很艰难,而且这条路的核心优势不在上限。”赵文渊说,“开物的真实用户行为数据,是我们独有的资产。别人花钱也买不到。”

韩路一点了下头。

“第二条,”赵文渊翻到下一页,“oe,混合专家模型。”

章节内容不完整,请退出阅读模式查看完整内容!
『加入书签,方便阅读』

上一页 目录 下一页