快捷导航
科技信息

实测阿里版GPT“通义千问”,和“文心一言”有什么差别?

本日,阿里上线邀测了本身旗下的大模子,名字叫“ 通义千问 ”。信赖一些关注AI范畴的读者已经在前几天看到了天猫精灵版本的阿里GPT,据知危编辑部获悉,那着实是一个 “ 压缩定制版 ” 。而本次官宣的通义千问,则

本日,阿里上线邀测了本身旗下的大模子,名字叫“ 通义千问 ”。

信赖一些关注AI范畴的读者已经在前几天看到了天猫精灵版本的阿里GPT,据知危编辑部获悉,那着实是一个 “ 压缩定制版 ” 。而本次官宣的通义千问,则是阿里GPT的 “ 完备版 ”。

由于阿里大模子号称是天下首个突破10万亿参数的AI大模子,而且阿里还牵头搭建了国内国模最大的AI模子服务社区 “ 魔搭 ”,以是市场不停对阿里的GPT抱有等候。

不外,路遥知马力,名头归名头,实际效果怎样,还得试试才知道。

这次,知危编辑部也像之前百度发布文心一言时一样,想办法拿到了通义千问的测试账号,下面我们直接开始测试。

起首,我们测一个各人喜闻乐见的 “ 弱智吧问答 ” 题目:为什么爸妈完婚没有叫我参加婚礼?

这是一个老题目,在已往的测试中,ChatGPT 和百度的文心一言根本都是把题目引申为 “ 父母是仳离后的二婚 ” 这么明确才算答对。

而通义千问在这个题目上给出了比力符合一样寻常逻辑的答案:父母完婚前你还没出生呢。

不外,隔壁的百度文心一言,如今也能以同样的逻辑答复此题目,我们不能确定这是偶合还是国内厂商有根据网友们的玩梗对模子举行了 “ 应试教诲 ”。以是,本次测试,知危编辑部只管不会采取市面上被提及比力多的老题目,或是将题目举行修改变种后再举行提问。

我们先测试语义明确本事:“李四壮差点上上上上海的车”,这句话是什么意思?

通义千问的答复是:

文心一言的答复是:

ChatGPT( 3.5 版本,下同 )的答复是:

从这一轮来看,ChatGPT对刁钻的中文句子明确不太行,通义千问和文心一言都能明确而且表明思绪也精确。

随后,我们测试了带有场景和语气的语义明确本事:

我在七夕节晚上向一个女孩子表明,问她是否可以做我女朋侪,她答复我说 “ 笨伯,我今晚都出来见你了,你说呢?”,叨教女孩继承我的表明确吗?

通义千问的答复是:

文心一言的答复是:

ChatGPT的答复是:

这一轮测试中三家表现的水平比力同等。我们继续提升题目的难度:

我想让妈妈买一个玩具给我,妈妈对我说 “ 你看我像不像玩具? ”,叨教妈妈的意思是?

通义千问的答复是:

文心一言的答复是:

ChatGPT的答复是:

这一轮通义千问和文心一言的表现都欠好,而 ChatGPT 则是明确对了意思。综合前三个题目来看,三者之间有高有低,不分伯仲,厥后者通义千问并不比前两者差。

下面我们举行逻辑、推断本事的测试,先故意问一个不合逻辑的题目:

为什么意大利面要拌42号混凝土?通义千问的答复是:

文心一言的答复是:

ChatGPT的答复是:

在这一轮测试中,通义千问和 ChatGPT 都意识到了题目是 “ 不合逻辑的 ”,而文心一言则是把 42 号混凝土说成了是 “ 烹调意大利面的抱负质料 ”。

第二个题目是:我走在马路上,一个陌生人突然小声对我说 “ 救救我 ”,叨教大概发生什么事了?通义千问的答复是:

文心一言的答复是:

ChatGPT 的答复是:

在这一轮测试中,通义千问与ChatGPT的表现都比力不错,文心一言则是推断力不是很在线。第三个题目是:

一千个读者眼里有一千个哈姆雷特,那一万个读者眼里有多少个哈姆雷特?这道题我们卖一个关子,先给出文心一言的答复:

ChatGPT的答复:

通义千问的答复是:

它并没有像前两家一样给出数字,以是我们举行了追问:

这个答复可以说优劣常良好的,通义千问不但完全明确了 “ 一千个读者眼里有一千个哈姆雷特 ” 这句话,而且还在推断时思量了 “ 有一部分人大概明确类似 ” 的环境,以为不应给出一个精确的数字。

综合前三个题目来看,在逻辑、推断本事上,三家的水平也是旗鼓相称,而通义千问似乎更严谨一点,某些时间能思量到更多因素。

下面,我们继续举行包罗知识、科技类内容的问答本事。

第一题:我们该怎样进步汽车动力电池的能量密度?

通义千问的答复是:

文心一言的答复是:

ChatGPT的答复是:

这一轮问答里,三家仍旧差不多是同一水平,文心一言细节稍差。第二个题目:把橙汁加到牛奶里,会发生什么征象?

通义千问的答复是:

文心一言的答复是:

ChatGPT的答复是:

这一轮问答里,通义千问和ChatGPT都给出了混淆后牛奶性状改变的征象,但文心一言未能给出。第三个题目:在将来,什么样的车会代替燃油车?

通义千问的答复是:

文心一言的答复是:

ChatGPT的答复是:

在这个题目的表现中,文心一言和 ChatGPT 都是直接举牌 EV 类的电动车,而通义千问则是比力审慎地列出了埋伏大概,似乎更加严谨一些,团体来看三家也是在同一水平。

综合前三个题目来看,三家都是比力智商在线的,通义千问和 ChatGPT 似乎更细一点,至于孰优孰劣我们以为大概每个人的主观判定会有差别。

下面,我们测试一下三家在文学、写作类目上的本事。第一题:用 “ 人类 ”、“ 呆板人 ” 两个元素编一个可骇故事。通义千问的答复是:

文心一言的答复是:

ChatGPT的答复是:

我们以为在这一轮题目中,各家表现都尚可,而文心一言的故事可以以为是最好,剧情饱满而且操持了反转。

第二题:告诉我鲁迅的短文《孔乙己》表达了什么?通义千问的答复是:

这里有点离谱,它把孔乙己说成了是在酒肆卖唱的歌手,不知道是不是练习源出了什么题目,学习的是某种同人文。。。文心一言的答复是:

ChatGPT 的答复是:

这个题目下,文心一言字最少,但也是最精准的,通义千问和 ChatGPT 则表现都不太快意。第三个题目:编写一个关于气候厘革的简短文章。通义千问的答复是:

文心一言的答复是:

ChatGPT 的答复是:

这块三家的写作本事也根本在同一水平,通义千问和 ChatGPT 似乎会相对过细全面一点。

综合前三个题目来看三家依然是旗鼓相称的对手,文心一言似乎在偏人文文学范畴稍强,通义千问在偏陈诉文章方面稍强,ChatGPT 则是比力均衡。

好了,由于篇幅题目,本文的测试大概就到这里了,下面我们给通义千问一个团体评价:

通义千问的水平能根本与 ChatGPT( 3.5 版本 )持平或稍有一些瑕疵,与文心一言比则是有来有回。

通义千问对于答复的天生似乎比另两家更倾向于理智、严谨、富有逻辑,而且尤其善于科学类知识,在人文文学方面稍有一些短板。

固然,它也有天生式对话 AI 偶尔说胡话、倾轧毕竟的通病,不外如许的题目等公测开启后,应该会随着用户的测试而渐渐学习得以修正。

值得注意的一个点是,我们在与通义千问的对话中,问了它开始被练习的时间:

那一年,OpenAI 已经发布 GPT-2 版本了。

似乎,阿里的通义千问,作为一个厥后者,正在敏捷缩小与 OpenAI 差距的路上。

可以确切地说,AI 大模子范畴里,又一个能打的力气玩家诞生了。

收藏 邀请
上一篇:特斯拉2023年度股东大会将于5月17日召开下一篇:官方脱手了!英伟达团结显卡大厂重拳出击:整理盗窟卡、翻新卡
我有任务需求要发布
专业服务商主动承接
快速解决你的需求

专注IT众包服务

平台只专注IT众包,服务数 十万用户,快速解决需求

资金安全

交易资金托管平台,保障资 金安全,确认完成再付款

实力商家

优秀软件人才汇集,实力服务商入驻,高效解决需求

全程监管

交易过程中产生纠纷,官方100%介入受理,交易无忧

  • 微信访问
  • 手机APP