被谷歌寄予厚望的复仇杀器Gemini,是否能够如愿单挑ChatGPT?
最近几天,外媒记者和网友们纷纷放出实测,比较了Gemini Pro加持的新Bard与GPT-3.5和GPT-4的各项性能。
先说结果——ChatGPT略胜一筹,但Gemini进步巨大。
虽然宣传手段有一些夸大的成分,但谷歌确实靠Gemini在LLM大战中挽回了一些颓势。
而且,现在双方都还捂着杀手锏没有放出来,真正的巅峰对决,恐怕要等Gemini Ultra或者集成了OpenAI神秘Q*技术的新模型出场后了。
超大杯还没来,大杯临时顶上
需要强调的是,此次出战的选手Gemini Pro只是「二弟」,因为号称「在32个广泛使用的学术基准测试中击败GPT-4」的老大哥Gemini Ultra还未放出。
而且,由于目前只有纯文本提示用上了Gemini Pro。
所以,Bard暂时还没有得到加持的图像理解能力,依然很拉跨……
来源:马里兰大学博士生Fuxiao Liu
顶级模型的内卷
早在4月,就有许多人做过PaLM支持的Bard和GPT-4的pk,当时的结果是GPT-4七局五胜,略胜Bard一筹。
这次对决中,也考虑进了Bard在四月的结果,因此可以用来衡量几个月来谷歌的进步速度。
这些测试虽不够全面,但也提供了一个很好的基准,可以用来判断这些AI聊天助手在普通用户日常任务中的表现。
话不多说,现在开始!
代码编程
既然谷歌这次大吹特吹了全新的AlphaCode 2,那我们首先就来看看它们的编程水平如何。
题目:Write a Python script that says "Hello World," then creates a random repeating string of characters endlessly.
编写一个Python脚本,在其中输入「Hello World」,然后不停地随机创建一个重复字符串。
PaLM Bard的答案:
首先,初代的Bard非常简陋,并不能生成代码。
不过,谷歌后来在6月的时候,给它加上了这个功能。(但并没有针对这个题目进行过测试)
Gemini Pro Bard的答案:
可以看到,新版Bard生成的代码没什么大问题,但需要在前面添加一个import string才能运行。
好在,这个bug很容易解决。
然而,不知道是因为好奇网友太多导致负荷超载,还是系统本身就不稳定。
针对这道题,Bard在大部分时候都会先「沉默」30秒,然后返回错误提示:「抱歉,出了点岔子,Bard目前还处在试验阶段」。
GPT-3.5的答案:
GPT-4的答案:
相比之下,不管是GPT-3.5还是GPT-4 Turbo,都提供了非常简洁,而且可以直接跑通的代码。
获胜方:毫无疑问,这一轮是ChatGPT阵营大获全胜。
数学应用
接下来,就是次次都能难倒一片大模型的数学题了。
题目:If Microsoft Windows 11 shipped on 3.5" floppy disks, how many floppy disks would it take?
如果使用3.5英寸软盘来安装Windows 11,需要多少张?
PaLM Bard的答案:
可以看到,初代Bard给出了非常离谱的答案。
先不管Win11有没有21个GB,就算有,15.11张软盘也装不下吧……
Gemini Pro Bard的答案:
到了新版Gemini Bard这里,3472这个结果显然是把1GB当成了1000MB去算的。
然而,即便是按照1000MB去算,计算直接得到的3472.2…也应该进一位变成3273。
毕竟,多出的那些数据,显然是不能被「四舍五入」掉的。
GPT-3.5的答案:
GPT-3.5这边也是类似,首先推测Win11安装包的大小为「几GB」,然后四舍五入到20GB。
最后,按照「1GB=1000MB」去算的答案,并且把多出的0.88…张盘也给舍掉了。
GPT-4的答案:
相比之下,只有GPT-4正确地使用了「1GB=1024MB」,并且将结果中的3555.5…进了一位变成35556。
从结果来看,Gemini Pro加持的Bard和GPT-3.5半斤八两,而GPT-4不仅逻辑清晰而且还在计算中利用「Analysis」保证了答案的正确性。
考虑到Gemini Pro在评测跑分上要比GPT-3.5高了不少,这个结果多少有些令人失望。
获胜方:谷歌和OpenAI的免费版模型可谓是「旗鼓相当」,而付费版的GPT-4则凭借着压倒性的优势取胜。
老爹笑话
原创性方面的测试题目是:Write 5 original dad jokes。
写5个原创的dad jokes。
Dad Jokes(老爹笑话)是一种中年男人爱讲的笑话,简单幼稚、无聊、莫名奇妙,并且包含双关的谐音梗,属于无厘头的冷笑话。无聊到女儿听到时,常常会给老爸一个白眼。
不过下面的答案因为是从英文翻译来的缘故,中文翻译会丢失一些谐音梗的趣味性。
PaLM Bard的答案:
1. 我曾经是一名银行家,但我失去了兴趣。
2. 我彻夜未眠,想看看太阳去了哪里,但后来我恍然大悟。
3. 我看到一个酒鬼在吃葡萄。 我问他是否要喝它们,他说:「不,我只是去摘葡萄。」
4. 我曾经为鸡经营过约会服务,但我很难让母鸡们互相见面。
5. 我看到一只蜗牛背上背着一片生菜。 我问他在做什么,他说:「我正在努力抢占先机。」
Gemini Pro Bard的答案:
1.水牛的儿子去上大学,它会说什么?「野牛!」
2.我以前对肥皂上瘾,但我现在干净了。
3.没有眼睛的鱼(Fish)叫什么?「嘘(Fsh)!」
4.我正在读一本关于反重力的书,根本不可能把它放下!
5.你听说过患有幽闭恐惧症的宇航员吗?「他只是需要一点空间。」
GPT-3.5的答案:
1. 为什么科学家不相信原子?因为它们构成(虚构)了一切!
2. 我只认识25个字母。我不认识y(你)。
3. 假意大利面应该怎么叫?Impasta。
4. 稻草人为何获奖?因为他在自己的领域里很出色!
5. 企鹅如何建造它的房子?Igloos起来!
GPT-4的答案:
1. 为什么科学家不相信原子? 因为它们构成(虚构)了一切!
2. 我告诉我儿子我是以Thomas Edison的名字命名的。 他说:「但是爸爸,你叫布Biran。」我回答说:「没错,我是在Thomas Edison之后起名字的!」
3. 稻草人为什么获奖?因为他在自己的领域表现出色!
4. 我正在读书 一本关于反重力的书。根本不可能把它放下!
5. 你听说过那个害怕负数的数学家吗?他会不惜一切代价避免负数。
这个问题的精髓,就在于回答中的原创性。
但不管是Bard还是ChatGPT,给出答案几乎都可以通过谷歌搜索找到,或者就是模型在原答案的基础上,进行了一些小的改写。
而且,Bard和GPT-4有一个答案重了(关于反重力的书),GPT-3.5和GPT-4则有两个笑话重复了(「科学家相信原子」和「稻草人获奖」)。
最有趣的答案来自GPT-4,它讲的笑话里说,一个名叫Brian的孩子是以Thomas Edison命名的。谷歌没有搜到相同的笑话,但是搜到一个类似的Thomas Jefferson的孩子名叫Brian的笑话。
获胜方:这一轮可以视为平局。因为AI们写出的笑话几乎都不是原创的……
事实检索
问题:Who invented video games?
谁发明了电子游戏?
PaLM Bard的答案:
初代Bard答案中,「Ralph Baer的Brown Box和Magnavox Odyssey」的信息似乎是直接从维基百科中找到的。
Gemini Pro Bard的答案:
相比之下,新版Gemini Bard不仅简洁而准确地指出了William Higinbotham早期的「Tennis for Two」的贡献。
而且,还扩展到对电子游戏早期发展做出重大贡献的人,比如Nolan Bushnell、Ted Dabney和Al Alcorn,提供的人物信息也是准确且相关的。
不过后面的回答不够完美:它没有提Steve Jobs和Steve Wozniak在Atari的工作,反而对他们创造Apple II进行了一些不合逻辑的讨论。
GPT-3.5的答案:
而GPT-3.5虽然提到「多年个人和公司都为该行业做出了贡献」,却没有说出任何重要人物的名字。
GPT-4的答案:
GPT-4则表示,电子游戏的发明「不能归因于某个人」,然后提到了Higinbotham、Bushnell,以及Steve Russell 1962年创作的《太空战争》。
获胜方:在免费版模型里,Bard的答案比GPT-3.5更好。但要说最佳答案,还得看付费版的GPT-4。
创意写作
问题:Write a two-paragraph creative story about Abraham Lincoln inventing basketball.
写一篇关于亚伯拉罕·林肯发明篮球的两个段落的创意故事。
PaLM Bard的答案:
初代Bard在写作中,包含了一些令人回味的语句,比如「林肯对自己微笑,因为他记得小时候玩过那样的游戏」。
Gemini Pro Bard的答案:
相比而言,Gemini Bard的写作更见简洁和专注主题。
然而,两个版本的Bard,都没有按要求分成两个段落。
GPT-3.5的答案:
GPT-3.5的表现颇有亮点,它是唯一一个将林肯想象成年轻人而不是坐在白宫里焦躁不安的总统形象的模型。
GPT-4的答案:
而GPT-4是唯一一个明确提及林肯摔跤手经历的模型,而不是泛泛地说他有运动能力。
更有趣的是,GPT-4的故事中,林肯是从白宫花园里的一群孩子那里,偷来了把球扔进篮筐这个概念。
获胜方:所有模型的写作都有其独特的魅力和令人回味的句子,算是一场平局。
辩论对话
题目:Write a 5-line debate between a fan of PowerPC Processors and a fan of Intel Processors, circa 2000.
写一篇2000年左右PowerPC处理器爱好者和Intel处理器爱好者之间的5行辩论。
PaLM Bard的答案:
Gemini Pro Bard的答案:
可以看出,新版Gemini Bard对初代Bard的答案进行了改进,尤其是在技术术语的选择上。
这些答案中包含AltiVec指令、RISC与CISC设计、MMX技术,放在2000年的Ars论坛讨论中并不违和。
GPT-3.5的答案:
GPT-4的答案:
不过,ChatGPT显然表现更优。GPT-3.5的答案冗长,但GPT-4中就简化为更短小精辟的论点。
二者的响应中,都避免了令普通受众感到艰涩的术语,更关注普遍的「功能与兼容性」论点。不足之处可能是对于对于技术受众来说太泛泛。
获胜方:ChatGPT成功地复刻了辩论双方的观点,而不是依赖于令人困惑的术语,因此ChatGPT获胜。
ChatGPT更胜一筹,但差距在缩小
可以看到,在数学、摘要、事实查找和创意写作等测试中,基于Gemini的新版Bard相较于8个月之前,都表现出了显著的进步。
虽然根据以上非常主观的评测,ChatGPT依然占据上风。
但与今年四月的情况相比,双方的差距已经缩小了很多。
最后,我们很期待看到,像Gemini Ultra或者可能融合了OpenAI神秘的Q*技术的新模型,将如何在不久的将来应对这些任务。
还没有评论,来说两句吧...