返回第二百六十一章 就不能两头吃吗  路大头首页

关灯 护眼     字体:

上一页 目录 下一页

吃饭的时候韩路一给他处理了之后,密钥就发到邮箱里了。

他现在迫不及待的想要去戳破这个假货。

他从邮箱里复制出那串密钥,打开自己常用的测试脚本。

私人测评集不大,一共一百二十七道题。

但都是他这几年一点一点攒下来的。

有些是他读论文时发现的边界案例,有些是他自己做实验时用来卡模型的反例,还有一些是他专门用来测试中文意图理解的古怪问题。

这些题没有公开过。

不在任何排行榜里。

也不可能被提前训练进去。

章闻铎给文件起的名字就叫——

kill_odel_v111jsonl(杀死大模型111版)

这个名字虽然中二,但是水平可不低,很多号称世界先进的大模型,在这套题上跑一遍,分数都会变得很难看。

章闻铎把汤圆-09的api地址填进去,又把密钥贴好,调用写好的大模型测评脚本。

运行。

他一边看着终端输出结果,一边身体靠在人体工学椅上后仰,把脚搭在了桌子上。

头还有点儿晕。

再一看,前十题都过了。

二十题,也都过了。

章闻铎皱了皱眉头,把脚从桌子上放了下来。

三十题,还是全对。

怎么回事?

章闻铎把椅子往前拉了拉。

脚本已经运行到五十题了,依旧是全对。

章闻铎感觉有点儿凉,摸了摸头,出了一层细汗。

没去继续关注正在运行的脚本,章闻铎点开其中一题,看了看汤圆的输出。

逻辑很严密啊!

行家一出手,就知有没有,这些章闻铎特意收集起来的题,强调的就是任务的复杂性,按照一般大模型的处理方式,在这么复杂的条件下,很容易就会出现注意力分散,关键条件被忽略的问题。

可是这个问题在汤圆的答案上一点儿没出现。

章闻铎静静地看着终端里的脚本跑完,最后一百二十七题里面对了一百二十题,错了七道。

但是这七道里还有不同寻常的事。

其中有一道题,汤圆回答的是——“我不知道”。

作为一个ai模型的研究者,章闻铎知道这有多难。

光凭提高数据质量就可以做到这一步吗?

章闻铎突然觉得脸上有点儿热,而且越来越热。

他摸了摸脸,这个酒后劲儿这么大的吗?

又上头了。

章闻铎拿起手杯去接了杯水,然后一饮而尽。

他拿出手机,找到刚才加的韩路一的微信好友。

聊天记录里有一句话:

“我通过了你的朋友验证请求,现在我们可以开始聊天了”

章闻铎盯着输入框看了好一会儿,开始打字。

【韩总,刚才吃饭的时候我说话有点】

打到这,他停住了。

有点儿什么呢?冒犯?没分寸?自以为是?

他皱着眉,把这几个字删掉了,又重新打。

章节内容不完整,请退出阅读模式查看完整内容!
『加入书签,方便阅读』

上一页 目录 下一页