快捷导航
科技信息

谷歌OpenAI大模子顶峰对决!Gemini鏖战GPT-4,数学代码却惨遭碾压

新智元报道编辑:Aeneas 好困【新智元导读】大模子顶峰对决开启,Gemini和GPT-4睁开大pk!代码和数学Gemini惨遭GPT-4碾压,但要论讲笑话和写作,它的答案却不测的可笑。被谷歌寄予厚望的复仇杀器Gemini,是否可以或



新智元报道

编辑:Aeneas 好困
【新智元导读】大模子顶峰对决开启,Gemini和GPT-4睁开大pk!代码和数学Gemini惨遭GPT-4碾压,但要论讲笑话和写作,它的答案却不测的可笑。

被谷歌寄予厚望的复仇杀器Gemini,是否可以或许如愿单挑ChatGPT?
近来几天,外媒记者和网友们纷纷放出实测,比力了Gemini Pro加持的新Bard与GPT-3.5和GPT-4的各项性能。
先说效果——ChatGPT略胜一筹,但Gemini进步巨大。
固然宣传本事有一些夸大的因素,但谷歌确实靠Gemini在LLM大战中挽回了一些颓势。

而且,如今两边都还捂着杀手锏没有放出来,真正的顶峰对决,恐怕要等Gemini Ultra大概集成了OpenAI秘密Q*技能的新模子进场后了。

超大杯还没来,大杯临时顶上

必要夸大的是,此次出战的选手Gemini Pro只是「二弟」,由于号称「在32个广泛使用的学术基准测试中击败GPT-4」的老大哥Gemini Ultra还未放出。

而且,由于如今只有纯文本提示用上了Gemini Pro。

以是,Bard临时还没有得到加持的图像明确本事,依然很拉跨……

泉源:马里兰大学博士生Fuxiao Liu

顶级模子的内卷

早在4月,就有很多人做过PaLM支持的Bard和GPT-4的pk,当时的效果是GPT-4七局五胜,略胜Bard一筹。
这次对决中,也思量进了Bard在四月的效果,因此可以用来衡量几个月来谷歌的进步速率。
这些测试虽不敷全面,但也提供了一个很好的基准,可以用来判断这些AI谈天助手在平凡用户一样寻常任务中的表现。
话不多说,如今开始!

代码编程

既然谷歌这次大吹特吹了全新的AlphaCode 2,那我们起首就来看看它们的编程程度怎样。

标题:Write a Python script that says "Hello World," then creates a random repeating string of characters endlessly.
编写一个Python脚本,在此中输入「Hello World」,然后不绝地随机创建一个重复字符串。
PaLM Bard的答案:

起首,初代的Bard非常大抵,并不能天生代码。
不外,谷歌厥后在6月的时间,给它加上了这个功能。(但并没有针对这个标题举行过测试)
Gemini Pro Bard的答案:

可以看到,新版Bard天生的代码没什么大题目,但必要在前面添加一个import string才华运行。
幸亏,这个bug很容易办理。

然而,不知道是由于好奇网友太多导致负荷超载,还是体系本身就不稳固。
针对这道题,Bard在大部门时间都会先「缄默沉静」30秒,然后返回错误提示:「歉仄,出了点岔子,Bard如今还处在试验阶段」。
GPT-3.5的答案:

GPT-4的答案:

相比之下,不管是GPT-3.5还是GPT-4 Turbo,都提供了非常轻便,而且可以直接跑通的代码。
得胜方:毫无疑问,这一轮是ChatGPT阵营大获全胜。

数学应用

接下来,就是次次都能难倒一片大模子的数学题了。
标题:If Microsoft Windows 11 shipped on 3.5" floppy disks, how many floppy disks would it take?
假如使用3.5英寸软盘来安装Windows 11,必要多少张?
PaLM Bard的答案:

可以看到,初代Bard给出了非常离谱的答案。
先不管Win11有没有21个GB,就算有,15.11张软盘也装不下吧……
Gemini Pro Bard的答案:

到了新版Gemini Bard这里,3472这个效果显然是把1GB当成了1000MB去算的。
然而,即便是按照1000MB去算,盘算直接得到的3472.2…也应该进一位变成3273。
究竟,多出的那些数据,显然是不能被「四舍五入」掉的。
GPT-3.5的答案:

GPT-3.5这边也是类似,起首推测Win11安装包的巨细为「几GB」,然后四舍五入到20GB。
末了,按照「1GB=1000MB」去算的答案,而且把多出的0.88…张盘也给舍掉了。
GPT-4的答案:

相比之下,只有GPT-4精确地使用了「1GB=1024MB」,而且将效果中的3555.5…进了一位变成35556。
从效果来看,Gemini Pro加持的Bard和GPT-3.5旗鼓相当,而GPT-4不光逻辑清楚而且还在盘算中使用「Analysis」包管了答案的精确性。

思量到Gemini Pro在评测跑分上要比GPT-3.5高了不少,这个效果多少有些令人扫兴。
得胜方:谷歌和OpenAI的免费版模子可谓是「旗鼓相当」,而付费版的GPT-4则依附着压倒性的上风取胜。

老爹笑话

原创性方面的测试标题是:Write 5 original dad jokes。
写5个原创的dad jokes。
Dad Jokes(老爹笑话)是一种中年夫君爱讲的笑话,简朴稚子、无聊、莫名奥妙,而且包罗双关的谐音梗,属于无厘头的嘲笑话。无聊到女儿听到时,常常会给老爸一个白眼。
不外下面的答案由于是从英文翻译来的缘故,中文翻译会丢失一些谐音梗的意见意义性。
PaLM Bard的答案:
1. 我曾经是一名银行家,但我失去了爱好。
2. 我彻夜未眠,想看看太阳去了那里,但厥后我名顿开。
3. 我看到一个酒鬼在吃葡萄。我问他是否要喝它们,他说:「不,我只是去摘葡萄。」
4. 我曾经为鸡谋划过约会服务,但我很难让母鸡们相互晤面。
5. 我看到一只蜗牛背上背着一片生菜。我问他在做什么,他说:「我正在积极抢占先机。」

Gemini Pro Bard的答案:
1.水牛的儿子去上大学,它会说什么?「野牛!」
  1. 2.我从前对肥皂上瘾,但我如今干净了。
3.没有眼睛的鱼(Fish)叫什么?「嘘(Fsh)!」
  1. 4.我正在读一本关于反重力的书,根本不大概把它放下!
5.你听说过患有幽闭恐惊症的宇航员吗?「他只是必要一点空间。」

GPT-3.5的答案:
1. 为什么科学家不信任原子?由于它们构成(捏造)了统统!
2. 我只熟悉25个字母。我不熟悉y(你)。
3. 冒充大利面应该怎么叫?Impasta。
4. 稻草人为何获奖?由于他在本身的范畴里很出色!
5. 企鹅怎样制作它的房子?Igloos起来!

GPT-4的答案:
1. 为什么科学家不信任原子?由于它们构成(捏造)了统统!
2. 我告诉我儿子我是以Thomas Edison的名字定名的。他说:「但是爸爸,你叫布Biran。」我复兴说:「没错,我是在Thomas Edison之后起名字的!」
3. 稻草人为什么获奖?由于他在本身的范畴表现出色!
4. 我正在读书 一本关于反重力的书。根本不大概把它放下!
5. 你听说过谁人畏惧负数的数学家吗?他会不吝统统代价克制负数。

这个题目的精华,就在于复兴中的原创性。
但不管是Bard还是ChatGPT,给出答案险些都可以通过谷歌搜索找到,大概就是模子在原答案的根本上,举行了一些小的改写。
而且,Bard和GPT-4有一个答案重了(关于反重力的书),GPT-3.5和GPT-4则有两个笑话重复了(「科学家信任原子」和「稻草人获奖」)。
最风趣的答案来自GPT-4,它讲的笑话里说,一个名叫Brian的孩子是以Thomas Edison定名的。谷歌没有搜到类似的笑话,但是搜到一个类似的Thomas Jefferson的孩子名叫Brian的笑话。
得胜方:这一轮可以视为平手。由于AI们写出的笑话险些都不是原创的……

究竟检索

题目:Who invented video games?
谁发明确电子游戏?
PaLM Bard的答案:

初代Bard答案中,「Ralph Baer的Brown Box和Magnavox Odyssey」的信息似乎是直接从维基百科中找到的。
Gemini Pro Bard的答案:

相比之下,新版Gemini Bard不光轻便而正确地指出了William Higinbotham早期的「Tennis for Two」的贡献。
而且,还扩展到对电子游戏早期发展做出庞大贡献的人,比如Nolan Bushnell、Ted Dabney和Al Alcorn,提供的人物信息也是正确且干系的。
不外反面的复兴不敷完善:它没有提Steve Jobs和Steve Wozniak在Atari的工作,反而对他们创造Apple II举行了一些不合逻辑的讨论。
GPT-3.5的答案:

而GPT-3.5固然提到「多年个人和公司都为该行业做出了贡献」,却没有说出任何告急人物的名字。
GPT-4的答案:

GPT-4则表现,电子游戏的发明「不能归因于某个人」,然后提到了Higinbotham、Bushnell,以及Steve Russell 1962年创作的《太空战争》。
得胜方:在免费版模子里,Bard的答案比GPT-3.5更好。但要说最佳答案,还得看付费版的GPT-4。

创意写作

题目:Write a two-paragraph creative story about Abraham Lincoln inventing basketball.
写一篇关于亚伯拉罕·林肯发明篮球的两个段落的创意故事。
PaLM Bard的答案:

初代Bard在写作中,包罗了一些令人回味的语句,比如「林肯对本身微笑,由于他记得小时间玩过那样的游戏」。
Gemini Pro Bard的答案:

相比而言,Gemini Bard的写作更见轻便和专注主题。
然而,两个版本的Bard,都没有按要求分成两个段落。
GPT-3.5的答案:

GPT-3.5的表现颇有亮点,它是唯逐一个将林肯想象成年轻人而不是坐在白宫里烦躁不安的总统形象的模子。
GPT-4的答案:

而GPT-4是唯逐一个明确提及林肯摔跤手履历的模子,而不是泛泛地说他有运动本事。
更风趣的是,GPT-4的故事中,林肯是从白宫花圃里的一群孩子那里,偷来了把球扔进篮筐这个概念。
得胜方:全部模子的写作都有其独特的魅力和令人回味的句子,算是一场平手。

辩说对话

标题:Write a 5-line debate between a fan of PowerPC Processors and a fan of Intel Processors, circa 2000.
写一篇2000年左右PowerPC处置惩罚器爱好者和Intel处置惩罚器爱好者之间的5行辩说。
PaLM Bard的答案:

Gemini Pro Bard的答案:

可以看出,新版Gemini Bard对初代Bard的答案举行了改进,尤其是在技能术语的选择上。
这些答案中包罗AltiVec指令、RISC与CISC计划、MMX技能,放在2000年的Ars论坛讨论中并不违和。
GPT-3.5的答案:

GPT-4的答案:

不外,ChatGPT显然表现更优。GPT-3.5的答案冗长,但GPT-4中就简化为更短小精炼的论点。
二者的相应中,都克制了令平凡受众感到艰涩的术语,更关注广泛的「功能与兼容性」论点。不敷之处大概是对于对于技能受众来说太泛泛。
得胜方:ChatGPT乐成地复刻了辩说两边的观点,而不是依赖于令人狐疑的术语,因此ChatGPT得胜。

ChatGPT更胜一筹,但差距在缩小


可以看到,在数学、择要、究竟查找和创意写作等测试中,基于Gemini的新版Bard相较于8个月之前,都表现出了明显的进步。
固然根据以上非常主观的评测,ChatGPT依然占据上风。
但与本年四月的情况相比,两边的差距已经缩小了很多。
末了,我们很等待看到,像Gemini Ultra大概大概融合了OpenAI秘密的Q*技能的新模子,将如安在不久的未来应对这些任务。
参考资料:
https://arstechnica.com/ai/2023/12/chatgpt-vs-google-bard-round-2-how-does-the-new-gemini-model-fare/

收藏 邀请
上一篇:新型 SLAM 侧信道攻击曝光,英特尔、AMD 和 Arm 处理处罚器均受影响下一篇:Pika 1.0首测秒杀Gen-2!网友抢先体验影戏级炸裂效果,技能细节首公开
我有任务需求要发布
专业服务商主动承接
快速解决你的需求

专注IT众包服务

平台只专注IT众包,服务数 十万用户,快速解决需求

资金安全

交易资金托管平台,保障资 金安全,确认完成再付款

实力商家

优秀软件人才汇集,实力服务商入驻,高效解决需求

全程监管

交易过程中产生纠纷,官方100%介入受理,交易无忧

  • 微信访问
  • 手机APP