Gemini 2.5 Pro深夜重磅更新，再次登顶AI竞技场！

2025-06-06ASPCMS社区 - fjmyhfvclm

️Gemini 再次更新，性能第一、价格最低，直接干翻了所有对手！

Google DeepMind刚刚发布的Gemini-2.5-Pro（06-05版本）在LMArena的所有竞技场中️全面登顶，把Claude和GPT-4o都甩在了身后。

这次，是️彻底的碾压。

全方位制霸

根据LMArena最新数据，新版Gemini-2.5-Pro在️文本、视觉、Web开发三大核心赛道全部拿下第一。

aspcms.cn

更夸张的是，在️硬核推理、编程、数学、创意写作、多轮对话、指令遵循和长查询等细分类别中，Gemini-2.5-Pro同样️横扫千军。

在文本竞技场的各个类别中，Gemini-2.5-Pro实现了️全面制霸，没有给对手留下任何机会。

视觉理解能力上，新版本同样️独占鳌头。

最让人意外的是Web开发领域的表现：

相比之前的2.5 Pro版本，新版本在WebDev Arena上️猛涨35分，这个提升幅度简直离谱！

性价比碾压对手

更让人震惊的是价格。

根据最新的定价数据，Gemini 2.5 Pro的价格为：

️输入：每百万token仅1.25美元
️输出：每百万token 10美元

️输入：每百万token仅1.25美元

️输出：每百万token 10美元

相比之下：

OpenAI o3的输入价格是️10美元，输出价格高达️40美元
Claude Opus 4输入️15美元，输出️75美元
就连OpenAI o4-mini也要输入️1.10美元，输出️4.40美元

OpenAI o3的输入价格是️10美元，输出价格高达️40美元

Claude Opus 4输入️15美元，输出️75美元

就连OpenAI o4-mini也要输入️1.10美元，输出️4.40美元

️Gemini 2.5 Pro不仅性能第一，价格还是最便宜的！

在具体的基准测试中，Gemini 2.5 Pro的表现同样惊人：

️数学（AIME 2025）：88.0%，仅次于o3的88.9%
️科学（GPQA diamond）：86.4%，超越了Claude的79.6%
️编程（LiveCodeBench）：69.0%，虽然不及o3的72.0%，但远超Claude的51.1%
️多语言性能（Global MMLU）：89.2%，全场最高！

️数学（AIME 2025）：88.0%，仅次于o3的88.9%

️科学（GPQA diamond）：86.4%，超越了Claude的79.6%

️编程（LiveCodeBench）：69.0%，虽然不及o3的72.0%，但远超Claude的51.1%

️多语言性能（Global MMLU）：89.2%，全场最高！

Google AI官方账号发布了一段颇有诗意的介绍视频：

「️我们已经爱上了新的Gemini 2.5 Pro Preview。在准备正式发布的过程中，我们进行了更新，你可能也会爱上它。这个模型更加全面，在风格和结构上都有所改进，能为生活中更深层次的问题提供创造性的答案。」

这话说得有点玄乎，但背后的含义很明确：️新版本不仅更聪明，还更懂人话了。

大家都看傻了

Anthony Harley(@anthony_harley1)直接感叹：

月度更新2.5 pro？这个领域要完蛋了。

Ashesh Dhakal(@asheshdhakal0)表达了质疑：

等等，Opus在编程上怎么会落后于2.5 pro？？

面对Opus被超越的事实，Sagar Patil(@sagarpatil)显然不太相信：

GPT-4o和Gemini Flash排在Opus前面？！？真的吗！

但Shubham Jain(@Shubham45856917)给出了解释：

这是综合模型排名，包括图像能力。在纯文本特别是纯编程方面，它确实很强。在webdev中它是仅次于2.5 pro的第二名模型。

Hassan LÂASRI(@hassanlaasri)分享了他的实际使用经验：

我对这个排名并不惊讶。我目前正在为一个关于「企业AI」的大型培训项目使用Gemini 2.5 Pro和Claude 4 Pro。

大部分工作都在Gemini中完成。它快速、强大，能快速理解上下文。

我主要在最后阶段引入Claude，用于最终润色和它独特的Projects和Artifacts功能，这些是Gemini（目前）还没有的。

理想情况下，我希望从头到尾使用单一模型。但目前，这种组合对内容密集型项目效果最好。

我对这个排名并不惊讶。我目前正在为一个关于「企业AI」的大型培训项目使用Gemini 2.5 Pro和Claude 4 Pro。

大部分工作都在Gemini中完成。它快速、强大，能快速理解上下文。

我主要在最后阶段引入Claude，用于最终润色和它独特的Projects和Artifacts功能，这些是Gemini（目前）还没有的。

理想情况下，我希望从头到尾使用单一模型。但目前，这种组合对内容密集型项目效果最好。

D.(@smdxit)也给出了肯定：

新Gemini模型真的简洁且精简????

Janak(@janaks09)昨天就已经体验过了：

Gemini 2.5 Pro Preview相当不错……昨天用它做深度研究，结果比一些大牌都要好……

Kirk Patrick Miller(@Chaos2Cured)更是激动地表示：

你们做得太棒了。被震撼到了，爱死Gemini了。????

不过，用户们也提出了一些期待和建议。

Mason(@culturaljacket)希望能有更灵活的控制：

请给我们在Gemini App中关闭思考模式的能力，这样我们可以进行更轻松的对话。当它思考的时间超过提供充分回答所需的时间时，可能会很烦人。

Gareth Manning(@worldteacherman)则更关注实际应用：

在这个阶段，我对出色的产品更新更感兴趣（比如你们一周前宣布但在欧盟仍不可用的那些），而不是新模型。

o3之所以惊人是因为它的工具调用。2.5能做到这个或更好吗？或者它能从头到尾编写一个复杂的应用程序吗？它是否与Gemini中的持久记忆集成，并具有完整的Drive集成？

在这个阶段，我对出色的产品更新更感兴趣（比如你们一周前宣布但在欧盟仍不可用的那些），而不是新模型。

对于开发者来说，Google AI团队特别提醒：

如果你正在使用「gemini-2.5-pro-preview-05-06」，需要更新到今天的版本「️gemini-2.5-pro-preview-06-05」。

新版本可以在Google AI Studio（https://ai.studio/）中体验，该平台提供：

️快速免费上手，5分钟内即可集成AI能力
️慷慨的免费额度，灵活的按需付费计划
️2M token的超长上下文窗口
️上下文缓存和搜索功能

️快速免费上手，5分钟内即可集成AI能力

️慷慨的免费额度，灵活的按需付费计划

️2M token的超长上下文窗口

️上下文缓存和搜索功能

面对Google DeepMind的凶猛攻势，各家都坐不住了。

RayLin????(@RayLin_AI)忍不住艾特Sam Altman：

@sama o3-pro什么时候来？？？

cherryMin(@cherryMin8)也在呼唤：

@OpenAI o3 Pro

DMV(@dmvsnkrs)则关心起了另一个玩家：

@xai Grok 3.5是不是又延期了...

PromptPilot(@PromptPilot)给出了中肯的评价：

开始感觉Gemini正在进入最佳状态。如果正式版保持这个轨迹，我们将看到一个全方位的强大竞争者。

当然，并非所有人都买账。

Dormouse(@graphiurus83)直接开炮：

它犯了大量错误。比之前的版本糟糕得多。它不断忽略基本指令，按自己的方向做一些没有被要求的事情。

SmartAiss(@SmartAiss)的吐槽更是辛辣：

Google的AI现在解决「生活中更深层次的问题」——因为没有什么比在Reddit帖子和企业公关上训练的算法更能带来存在主义的清晰度了。下一个更新：Gemini 3。

️性能第一、价格最低，ASPCMS社区这次是真的要让人无路可走了！

????

另外，我还用AI 进行了全网的AI 资讯采集，并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的知识星球中。

这是个只有信息、没有感情的 AI 资讯信息流（不是推荐流、不卖课、不讲道理、不教你做人、只提供信息）

️欢迎你的加入！也欢迎加群和2000+群友交流