2025中文大模型基准测评

2025-02-19ASPCMS社区 - fjmyhfvclm

今天分享的是：2024中文大模型基准测评

报告共计：89页

《中文大模型基准测评2024年度报告》由SuperCLUE团队发布，对2024年中文大模型进行全面测评与分析，展现了大模型发展态势、测评体系及成果。

1. 发展进展与趋势：自ChatGPT发布，大模型历经多阶段发展。2024年，海外OpenAI发布Sora、o1等，国内多模态和通用模型也持续进步。但总体上，国内外第一梯队大模型在中文通用能力差距因o1发布再次拉大，不过国产模型如DeepSeek-V3正接近GPT-4o-latest。

2. 测评体系：SuperCLUE是独立第三方测评基准，具有“Live”更新、测评方式贴近用户、完全独立等特征。其测评体系涵盖多领域，本次通用能力测评由理科、文科和Hard三大维度构成，通过多种方式评价模型表现。

3. 测评结果

- 总体排名：o1以80.4分领跑，国内DeepSeek-V3、SenseChat 5.5-latest等表现出色，在部分任务上优于部分海外模型，但与o1仍有差距。

- 各维度表现：文科任务国内模型有优势，理科和Hard任务与海外头部模型差距较大。如在Agent任务中，ChatGPT-4o-latest领先，国内Step-2-16k等接近部分海外模型。

- 综合效能与性价比：部分国产模型如DeepSeek-V3和Qwen2.5-32B-Instruct在综合效能和性价比上优势明显，在保证推理速度和能力水平的同时，成本较低。

4. 模型成熟度与开源进展：国内大模型在语言理解和生成创作等能力成熟度较高，在Agent等能力上成熟度低。开源模型方面，国内DeepSeek系列、Qwen系列表现优异，在中文场景具备较大优势，10B级别及端侧5B级别小模型也取得进展。

5. 多模态及行业测评：多模态测评涉及多个方面，不同模型在各模态表现不同。行业测评中，国内大模型在各行业有不同程度竞争力，如金融行业头部模型差距小，工业场景国内模型表现不俗。

以下为报告节选内容

报告共计： 89页

中小未来圈，你需要的资料，我这里都有！