报告下载丨SuperCLUE 中文大模型基准测评 2025 年 5 月报告

fjmyhfvclm2025-06-16 1

该报告聚焦 2025 年上半年中文大模型进展，通过 SuperCLUE 综合测评体系，对模型进行多维度评估。在数学、科学推理，代码生成、智能体、指令遵循及文本处理方面，设置 1579 道多轮简答题测试。结果显示，o4-mini (high) 总分领先，国内豆包 1.5・深度思考模型和商汤日日新 V6 并列国内第一。国内推理模型崭露头角，但指令遵循普遍弱于海外。部分开源小参数量模型潜力惊人，如 Qwen3 系列。总体上，国内外头部模型在中文通用能力差距缩小。其为行业清晰呈现模型发展格局，助力企业与研究人员了解模型优劣势，对选择合适模型、明确研发方向意义重大。

转载请注明原文地址:https://m.aspcms.cn/tech/1845661.html

应用探析|千眼狼高速摄像机在内燃机高效低碳清洁燃烧领域中的应用
【加强未成年人思想道德建设】广东省创意机器人大赛汕头市预赛在汕头科技馆举办
“新红专”轮致敬海上丝路文化巡展在大连起航
在娱乐的浪潮中，黛博拉·卡普瑞里奥如何以演技为剑，劈开一条属于自己的星光大道？
《乘风2025》李晟获第4名，超越第1名意义深远，格局全面打开
闻闻科技：以科技之光照亮电商发展之路，传递正能量
《披哥5》初舞台竞演成绩：TOP登陆少年获得第一，0713第三名
贾玲“消失”真相曝光，蓄力已久的转型，告别过气迎来升咖之路
2025年“数据要素×”大赛青海分赛：9个赛道促进成果转化
科技强国未来有我——彩虹学子在咸阳市首届青少年人工智能编程大赛决赛中勇创佳绩