哄骗可以让GPT 3号精度飙升61%!Google \\u0026东京大学研究震惊四人。

来源:15手游网 时间:2022-10-20 10:10:15

孟明敏来自奥菲斯qubit |微信官方账号QbitAI

一觉醒来,机器学习社区炸了。

因为最新研究发现,只要对GPT-3说一句“让我们一步一步地思考”,就能让它正确回答之前不知道的问题。

例如,下面的例子:

六个球中有一半是高尔夫球。这些高尔夫球有一半是蓝色的。有多少蓝色的高尔夫球?

(问题不难,但需要注意的是,这是零样本学习,也就是说我在AI训练阶段没见过类似的问题。)

如果让GPT-3直接写“答案是什么”,它会给出错误的答案:8。

但是增加了让我们一步一步思考这个“咒语”,GPT-3会先输出思考步骤,最后给出正确答案:4!

而研究团队在论文中充分验证了这一点,也绝非巧合。

以上问题来自经典的MutiArith数据集,专门测试语言模型做数学题的能力。在零样本情况下,GPT-3的准确率仅为17%。

本文总结了九个最有效的提示词,其中前六个让GPT-3通过改变模式一步步思考的词都让准确率飙升到70%以上。

即使是最简单的“让我们想想”(让我们想想)也能上升到57.5%。

感觉像幼儿园阿姨在哄孩子.

这项技术似乎也不需要对GPT 3号进行魔法改变。已经有人在OpenAI的官方Demo上成功重现,甚至改成了中文。

英文问题用中文提示,GPT-3给出正确的中文答案。

佐治亚理工学院的博士首先将这篇论文转发到社交网络,他说,新的“你所需要的一切”增加了。

看到这里,各路大佬都脑洞大开,玩了个梗。

如果鼓励AI“你能行,我相信你”,会发生什么?

如果AI威胁说“时间不多了”或者“你脑袋上有枪”怎么办?

对AI说“稳稳地开”会成为自动驾驶解决方案吗?

还有人提出,这就像科幻故事《银河系漫游指南》的情节一样。实现通用人工智能的关键是要知道如何正确地向AI提问。

那么,这种神奇的现象是怎么回事呢?

大语言模型是零样本推理。这一现象是由谷歌大脑和东京大学的合作研究发现的,该研究探索了大语言模型在零样本场景下的表现。

标题《语言大模型是零样本推理者》也向GPT三号的《语言模型是少样本学习者》致敬。

使用的方法属于思维链提示(CoT),是Google Brain团队在今年1月刚刚提出的。

最早的CoT应用于样本少的学习,给出了分步回答的例子,边提问边指导AI。

这项最新研究提出了零样本成本,主要变化是简化了样本部分。

第一步,将标题改写成“Q: XXX,A: XXX”的形式,其中触发句A可以提取语言模型的思维过程。

第二步是附加实验,增加提示“答案是……”来提示语言模型给出最终答案。

这样做最大的好处就是通用,不再需要针对不同类型的题型提供特例。

本文对各种问题进行了充分的测试,包括12个测试:

六个数学问题的测试集,SingleEq,AddSub,SVAMP和更具挑战性的MultiArith,AQUA-RAT,GSM8K。

两个常识推理测试集,CommonsenseQA和StrategyQA。

两套符号推理测试集,最后一个字母串联和抛硬币。

以及数据理解问题和跟踪大平台中无序对象的任务。

与普通零样本学习相比,零样本CoT在10个项目上取得了更好的结果。

右侧数值为附加实验结果。在更难的MultiArith和GSM8K的数学测试中,使用了GPT-3的最新版本Text-davinci-002 (175B)进行进一步的实验。

如果给8次尝试就能得到最好的结果,还可以进一步提高准确率到93%。

在对错误结果的分析中,研究人员还发现,在很多问题中,AI的推理过程是正确的,但当答案无法收敛到唯一的确定性时,就会给出多个备选方案。

论文最后,研究团队提出,该研究不仅可以作为零样本CoT的基线,还可以让学术界认识到在构建微调数据集和小样本提示模板之前,充分发掘大语言模型零样本能力的重要性。

研究小组来自东京大学松尾实验室。

负责人松尾东洋教授也是软银董事会的首位人工智能专家。

团队中的客座教授顾,就是来自谷歌大脑团队的顾本

科师从三巨头之一Hinton,博士毕业于剑桥大学。

加点“魔法”已经成为AI圈新潮了

零样本CoT究竟为何起作用还有待探索。

不过有人实验得出,这种办法似乎只对GPT-3(text-davinci-002)比较有效,他尝试了001版本,发现收效甚微。

他列出了一个自己做的例子。

提问:请将machine,learning中每个单词的最后一个字母连起来。

GPT-3在提示下给出的答案是连起来了两个单词中的所有字母。

对此,作者之一顾世翔回复表示,其实“咒语”对初始版、改良版的GPT-3都有效果,这些结果在论文中也有体现。

也有人发出质疑,表示难道深度学习变成了一场找“神奇咒语”的游戏?

同时,我们在吐槽队伍里又看到了马库斯的身影。

他也列出了一个失败的例子,GPT-3在“咒语”加持下也没弄明白,莎莉的牛到底会不会起死回生……

不过值得注意的是,类似这种稍微给AI加点小魔法,提升效果立竿见影的例子已经不稀奇了。

有网友分享,自己用GPT-3时加几个中间命令,确实能得到更满意的结果。

此前谷歌和MIT的研究人员发现,无需更改底层架构,只要训练语言模型会像程序员debug时那样“打断点”,模型读代码、做算术的能力唰唰唰地就上去了。

原理也非常简单,就是在计算步骤较多的程序里,让模型把每一步都编码成文本,并将它们记录到一个称为“便签”的暂存器中。

由此一来,模型的计算过程变得更加清晰有序,性能自然大幅提升。

还有本项实验中用来测试的Instruct GPT-3,也是一个典型的例子。

只需让GPT-3从人类反馈中强化学习,它就能明显改善答非所问的情况。

具体来看就是先用一些人类的示范回答微调模型,然后收集某个问题的几组不同输出数据,人工对几组答案进行排序,并在此数据集上训练奖励模型。

最后,使用RM作为奖励函数,近端策略优化(PPO)算法微调GPT-3策略,以强化学习方法最大化奖励。

包括引爆这次话题的推特博主Aran,正是当初发现加一句“虚幻引擎”就能让AI生成图像画质飞升的那位。

前谷歌机器人大佬Eric Jang此前也发现,强化学习也能运用类似的思维来提升计算效率。

也有人表示,这种用在AI上的技巧,不正是自己平常动脑时会用的吗?

实际上,此前Bengio就从脑科学入手,提出AI的运转模式应该像人类动脑模式一样。

人类的认知任务可以分为系统1认知和系统2认知。

系统1认知任务,是指那些无意识完成的任务。比如你可以马上辨别出手里拿的是什么东西,但是却无法和别人解释,自己是怎么完成这个过程的。

系统2认知任务,是指人类大脑需要按照一定步骤完成的认知。比如做一道加减法运算,你可以很清楚地解释最终答案是如何得出的。

而这次加的“咒语”,正是让AI更进一步,学会按步骤来思考。

面对这样的趋势,有学者认为“提示工程正在取代特征工程”

那么“提示词猎人”会成为下一代NLP研究者的外号么?

论文地址:https://arxiv.org/abs/2205.11916

参考链接:[1]https://twitter.com/arankomatsuzaki/status/1529278580189908993[2]https://evjang.com/2021/10/23/generalization.html— 完 —量子位 QbitAI · 头条号签约关注我们,第一时间获知前沿科技动态

热门攻略
推荐游戏