2025中文大模型基准测评
今天分享的是:2024中文大模型基准测评
报告共计:89页
《中文大模型基准测评2024年度报告》由SuperCLUE团队发布,对2024年中文大模型进行全面测评与分析,展现了大模型发展态势、测评体系及成果。
1. 发展进展与趋势:自ChatGPT发布,大模型历经多阶段发展。2024年,海外OpenAI发布Sora、o1等,国内多模态和通用模型也持续进步。但总体上,国内外第一梯队大模型在中文通用能力差距因o1发布再次拉大,不过国产模型如DeepSeek-V3正接近GPT-4o-latest。
2. 测评体系:SuperCLUE是独立第三方测评基准,具有“Live”更新、测评方式贴近用户、完全独立等特征。其测评体系涵盖多领域,本次通用能力测评由理科、文科和Hard三大维度构成,通过多种方式评价模型表现。
3. 测评结果
- 总体排名:o1以80.4分领跑,国内DeepSeek-V3、SenseChat 5.5-latest等表现出色,在部分任务上优于部分海外模型,但与o1仍有差距。
- 各维度表现:文科任务国内模型有优势,理科和Hard任务与海外头部模型差距较大。如在Agent任务中,ChatGPT-4o-latest领先,国内Step-2-16k等接近部分海外模型 。
- 综合效能与性价比:部分国产模型如DeepSeek-V3和Qwen2.5-32B-Instruct在综合效能和性价比上优势明显,在保证推理速度和能力水平的同时,成本较低。
4. 模型成熟度与开源进展:国内大模型在语言理解和生成创作等能力成熟度较高,在Agent等能力上成熟度低。开源模型方面,国内DeepSeek系列、Qwen系列表现优异,在中文场景具备较大优势,10B级别及端侧5B级别小模型也取得进展。
5. 多模态及行业测评:多模态测评涉及多个方面,不同模型在各模态表现不同。行业测评中,国内大模型在各行业有不同程度竞争力,如金融行业头部模型差距小,工业场景国内模型表现不俗。
以下为报告节选内容
报告共计: 89页
中小未来圈,你需要的资料,我这里都有!