该报告聚焦 2025 年上半年中文大模型进展,通过 SuperCLUE 综合测评体系,对模型进行多维度评估。在数学、科学推理,代码生成、智能体、指令遵循及文本处理方面,设置 1579 道多轮简答题测试。结果显示,o4-mini (high) 总分领先,国内豆包 1.5・深度思考模型和商汤日日新 V6 并列国内第一。国内推理模型崭露头角,但指令遵循普遍弱于海外。部分开源小参数量模型潜力惊人,如 Qwen3 系列。总体上,国内外头部模型在中文通用能力差距缩小。其为行业清晰呈现模型发展格局,助力企业与研究人员了解模型优劣势,对选择合适模型、明确研发方向意义重大。
![]()
![]()
![]()
![]()
![]()
![]()
![]()