一个资深用户的真实体验:文心X1挺让人失望

2025-04-07ASPCMS社区 - fjmyhfvclm

日前,百度正式发布文心大模型4.5及文心大模型X1,在文心一言官网即可免费使用。

据百度相关负责人介绍,文心大模型X1为深度思考模型,具备“长思维链”,擅长中文知识问答、文学创作、逻辑推理等,而且增加了多模态能力和多工具调用,能理解和生成图片,还能调用工具生成代码、图表等丰富内容。

这一一消息很让人振奋。振奋的原因有二:

一是作为国内最早紧跟ChatGPT潮流率先发布通用语言大模型的厂商,百度此次虽然后知后觉,在国内已涌现出不少优秀深度推理大模型的情况下才推出自家的思考大模型,有点姗姗来迟的味道,但毕竟有胜于无,没有错失推理大模型这波潮流。

二是文心X1的出现,再度丰富了国产深度大模型市场。2023年,自OpenAI扔出o1,首次将推理大模型及长思维链的概念普及给普通民众后,全球大模型市场闻风而动,涌现出不少同类产品。

远的不说,仅说国内,自年后以来就陆续发布了包括科大讯飞星火X1和DeepSeek等在内的深度推理大模型,并凭借出色的能效比,引发全球瞩目。文心X1的发布,无疑使得国产深度推理大模型阵营更加庞大。

于是对于文心X1的推出,网上一片欢腾。诸如性能可以“比肩DeepSeek”、“超越Open AI o1”,“百度厚积薄发,后来者居上”等呼声震耳欲聋,好像文心X1一出,国产深度推理大模型从此雄起了,但事实果真如此?

作为国产大模型的忠实用户,笔者在第一时间测试了文心X1的数学能力。

之所以没有测试文心X1的其他能力,是因为其他能力太泛化了,没有统一的评定标准。

举个简单的例子,所有大模型都可以轻松生成文本,但哪款生成的好,恐怕是一个人一个观点,青菜萝卜各有所好。有人喜欢《红楼梦》,有人喜欢《西游记》,有人喜欢《笑傲江湖》,自然也有人喜欢《盗墓笔记》。

所以普通用户评判一款大模型能力的最好,也是最直接、最有效的方法,就是让它回答有固定答案的问题,比如解答数学题和代码编写。

推理大模型相比于传统语言大模型的最大优点,是具备“长思维链”能力,能够类人思考,这使得它在解答数学题和编写代码,有着通用大模型无可比拟的优势。

也正因为此,OpenAI o1推出伊始至今,反复鼓吹的就是其数学能力,什么奥数试卷的解答正确率达到百分之几,大学数学考卷成绩超过多少学生等。

所以这里的评测,仅限于文心X1的数学。如果在推理大模型本该擅长的数学方面都表现欠佳,那么文心X1的综合能力也就可想而知了。

此次测试试题来自《2024年普通高等学校招生全国统一考试(新高考I卷)》。试题不多,只选了三个。

这题分两小问,正确答案分别为:(1)π/3;(2)2√2。文心X1解答正确。

该题正确答案是:(1)1/2;(2)x-2y=0或3x-2y-6=0,文心X1给出的答案的(1)正确,(2)错误。

该题的正确的答案是:(1)证明过程略;(2)√3。文心X1证明出了AD//平面PBC,却在第二小题时栽了跟头,给出了错误答案。

该题的正确答案是:(1)a=-2;(2)证明过程略;(3)b≥-2/3。文心X1答对了该题。但在解答过程中,表现出下列问题。

一是页面长时间处于假死状态,二十多分钟无反应,多次重新进入文心X1,多次让其重新解答,最终才给出了答案。

二是给出答案时间太长,且忽视了深度推理大模型共同奉行的逻辑推理及验证过程应在思考环节完成,思考成熟后,再给出回复的基本规律,而是在思考完毕,在解答过程中,重新进入了思考、验证过程,导致解题过程很长,无法完整截图,且用时惊人,达到了一个半小时,极大影响了用户的操作体验,也耗尽了耐心。

而同样是这道题,某国产深度推理大模型仅用几分钟就完成了,且答案正确,解题过程简捷、明晰。

同时,对于上面文心X1答错的两道题(16、17题的后一小问),该推理大模型也给出自己的答案,正确率100%,说明文心X1在数学能力上的平庸表现,并不代表当前推理大模型共有水平,而是它自己的水平的确有限。

某国产深度推理大模型解答16题

某国产大模型解答17题

全部评论