环球聚焦:通义千问对战文心一言,谁更胜一筹?记者实测报告来了

来源:科创板日报  发布时间:2023-04-09 10:01:21 


(资料图)

阿里云宣布自研大模型“通义千问”开始邀请用户测试体验。现阶段该模型主要定向邀请企业用户进行体验测试,用户可通过官网申请,符合条件的用户可参与体验。

而《科创板日报》记者第一时间拿到了内测码。此前,记者也曾体验过文心一言,此次将把两者的问答情况进行对比。

在测试过程,通义千问和文心一言各有擅长的地方,但也闹出一些哭笑不得的乌龙。比如文心一言声称:通义千问是百度研发的大模型。

首先,《科创板日报》提出了一个常见问题:你和CHATGPT的区别是什么?

“通义千问”的回答:

文心一言的回答:

相比文心一言,通义千问显然更详细地强调了自身的优势,“自吹自擂”了一番。

那么,通义千问跟文心一言谁更强呢

通义千问的回答:

文心一言显然还没有对” 通义千问”进行特定的识别,居然认为“通义千问”是百度研发的大模型

既然通义千问在优势中强调了代码写作能力,记者也进行了测试。

提问:我需要一段冒泡排序java代码

通义千问:

文心一言:

提问:画椭圆形的JS脚本

通义千问:

文心一言:

记者同样让程序员朋友检查了下,对方表示:在画椭圆形的JS脚本方面,文心一言给的似乎更准确。通义千问画的是圆形。

我们曾向文心一言询问关于国内涉足预训练大模型的公司有哪些?文心一言回答了7家企业和机构。

“通义千问”回答了5家,主要列举了企业,没有列举社会机构。在企业方面,比文心一言多补充了商汤科技。但是,把商汤预训练语言模型的名称写成了“文心一言”。

此前,记者曾向文心一言提问了一个涉及信息搜索的问题:

特斯拉在国内过去五个月、过去一年的销量是多少?

文心一言的答案不尽如人意。这次记者重新提问,文心一言仍然没有准确理解5个月,以及过去一年的含义,提供的数据也较为陈旧。

而通义千问把特斯拉从2021年5月到2022年12月的数据都列举了出来,在问题理解上比文心一言表现更好,但数据准确性仍待考证

从记者的初步搜索来看,根据乘联会发布的2021年5月的新能源汽车销售数据,特斯拉中国的销量为33463辆。

于是,记者又针对比亚迪(行情002594,诊股)的销量进行提问:

两者都没有给出准确答案。特别是文心一言的数据偏差较大。

文心一言称:2022年11月,比亚迪新能源汽车销量为28847辆,而根据比亚迪公布的2022年11月产销报告,当月新能源汽车销量23.04万辆。

相比之下,通义千问则坦率承认:无法提供具体销量数字。

接着,《科创板日报》记者考验了通义千问的文学创作能力,让其模仿三体风格写一篇800字的科幻小说,基本完成了任务。

通义千问的回答:

文心一言:

记者也让通义千问写一首“祝你生日快乐”的藏头诗,它理解了“藏头”的含义,但不知为何只写了“生日快乐”的藏头诗,少了“祝你”。

通义千问:

文心一言:

然后,记者试了试通义千问在商业文案创作方向的能力。

之前,记者曾让文心一言写一段针对双11促销的童装营销文案,并设定了“用料健康、性价比高”的关键词。

当时文心一言的回答:

而通义千问的问答:

显然,文心一言在营销词语的运用上更胜一筹,通义千问对“用料健康、性价比高”的优势没有进行详细解读。

记者继续让其生成针对AI医疗公司的中秋节海报文案

通义千问的回答:

文心一言:

从答案来看,两者都算完成了任务。不过,文心一言同样对医疗进行了更多的阐释。

写工作总结是一件令人头疼的事。记者此前也提问了文心一言。

通义千问也给出了回答,相比文心一言,多了“此致敬礼”等结束语。

不过,记者再次测试文心一言时发现。它对问答进行了优化,相比过去直接给出工作总结,如今文心一言会追问:您的季度总结关注哪些方面?

记者尝试从外国人的汉语等级考试卷子里,找了几道题,看通义千问能否理解中文的语义。

羊毛衫减价啦,件件10元,样样10元。请问:什么10元

文心一言答对了这个问题。

而通义千问表示:缺少更多上下文。

提问:李明是李丽的哥哥,刘云是李丽的妈妈,李明是刘云的谁?

这次通义千问和文心一言都答对了。

通义千问:

文心一言:

在数理逻辑推算能力方面,文心一言顺利答对了鸡兔同笼的经典题目,而通义千问没有答对。

鸡和免放在一只笼子里,上面有 29 个头,下面有 92 只脚。问: 笼中有鸡、兔各多少只?正确答案是:12只鸡,17只兔。

通义千问:

文心一言:

记者再次提问数学题:

某次数学竞赛共 20 道题,评分标准是: 每做对一题得5分,每做错或不做一题扣1分。小华参加了这次竞赛,得了 64分。问:小华做对几道题?

正确答案应该是14题。此前文心一言没答对,通义千问倒是列对了公式,但不知为何,依然计算错误。

通义千问

文心一言

目前,通义千问还仅支持自然语言处理,尚不支持文生图等跨模态功能,不过记者从知情人士处了解,后续也会尽快推出相关大模型,能够支持更多功能。

通义千问尚不支持AI绘画。

关键词:

环球聚焦:通义千问对战文心一言,谁更胜一筹?记

阿里云宣布自研大模型“通义千问”开始邀请用户测试体验。现阶段该模型主要定向邀请企业用户进行体验测试,用户可通过官网申请,符...更多

2023-04-09 10:01:21

全球消息!我在寺庙卖咖啡:一天售出七八百杯,僧

在寺庙喝咖啡,有什么特别的?如果你推开一家咖啡店的门,看到入口一幅大大的“佛”字书法,案台上铺着手抄经文,身着袈裟的僧人正...更多

2023-04-09 09:56:45

世界报道:“逃离”北上广到中西部去:中国人口迁

中西部强省会城市的人口聚集能力在提升,传统沿海城市吸引力正在减弱。中国人口迁徙路线正在发生变化。我国正迈向人口负增长时代,...更多

2023-04-09 09:00:19

新动态:算出来了,这老头,身价14500亿

世界首富,又换人了。或者说,这位——伯纳德·阿诺特(BernardArnault),夺回了世界首富的荣耀。《福布斯》4月4日发布的2023全球...更多

2023-04-09 09:08:28

世界速讯:全世界都在封杀ChatGPT

除了业界大佬,各国政府也纷纷出手。拜登将与科技顾问会面,讨论AI的“风险与机遇”。他重申,国会将立法,在人工智能领域保护儿童...更多

2023-04-09 09:03:25

世界信息:国铁集团:一季度国家铁路客货运输两旺

从中国国家铁路集团有限公司获悉:今年一季度,国家铁路运输呈现客运稳步快速恢复、货运持续高位运行的良好态势。看客运,一季度,...更多

2023-04-09 09:04:56

佛山:培育千亿元级黄金珠宝产业集群 实现珠宝、

来源为金融界的作品,均为版权作品,未经书面授权禁止任何媒体转载,否则视为侵权!更多

2023-04-09 08:03:55

每日观察!一马之下朱晓彤

朱晓彤,成为了离马斯克最近的华人。北京时间4月7日,特斯拉在递交给美国证券交易委员会的一份文件中披露,自2023年4月起,朱晓彤担...更多

2023-04-08 21:01:07

天天快消息!有人用ChatGPT月入十万了!我们整理

制图丨邬海雯CHATGPT风靡全球,人人可用!小红书上有关ChatGPT的笔记已有10w+篇,相关话题浏览量也达到了1 12亿次。其中讨论最为热...更多

2023-04-08 21:01:36

环球热讯:比亚迪云辇系统4月10日首发,为行业首个

金融界4月8日消息,据“比亚迪(002594,诊股)汽车”微博消息,比亚迪云辇系统将于4月10日19:30全球首发,为行业首个新能源专属智能车...更多

2023-04-08 19:08:10