当前位置:首页 > 大模型评测 > 正文内容

谷歌深夜炸场!Gemini 3震撼发布:博士级推理吊打前代,OpenAI奥特曼点赞

上善若水6个月前 (11-19)大模型评测

 

科技界刚刚迎来了一个里程碑式的时刻。

谷歌正式宣布推出Gemini 3,目前Gemini 3 Pro版本已经面向全球Gemini App和Google AI Studio用户全面推送,这一动作甚至比部分业内人士预期的还要快。

对于这次发布,谷歌官方给出了极高的定义——这不仅是一次版本更新,更是一次彻头彻尾的代际升级。

这一次,Gemini 3并没有停留在单纯的数据堆砌上,而是在推理能力、多模态理解以及工具使用等核心维度上,实现了对前代2.5和2.0系列的全面超越。image.png

这种显著的性能飞跃甚至引起了竞争对手的关注,OpenAI首席执行官山姆·奥特曼也在社交媒体上罕见点赞,这一细节足以印证Gemini 3在行业内引发的震动。

从单纯回答问题到深度思考的进化

若要用一个词概括Gemini 3的核心变化,那就是推理。它不再仅仅是一个能够快速检索和拼凑信息的助手,而是进化成了一个能够将抽象想法转化为现实方案的思考者。

在权威的LMArena排行榜中,Gemini 3以1501分的高分稳居榜首。这个分数背后,代表着模型在开放式问答、长对话以及复杂任务拆解中表现出了前所未有的稳定性和一致性。

更令人印象深刻的是它在硬核学术基准上的表现。在Humanity’s Last Exam(人类终极考试)和GPQA(研究生级别问答)测试中,它分别取得了37.5%和91.9%的成绩。

这里的91.9%意味着,在不需要借助外部工具进行纯推理的情况下,它的表现已经接近甚至达到了博士研究生的水平。image.png

但这还不是全部。Gemini 3引入了一项名为Deep Think(深度思考)的关键技术。

你可以将其想象为人类的慢思考模式——当遇到难题时,我们不会脱口而出,而是会停下来,在脑海中进行反复推演和逻辑构建。

开启Deep Think模式后,Gemini 3展现出了非线性的能力跃迁。在测试创造性与新颖推理能力的ARC-AGI-2基准上,它的得分达到了45.1%,这一成绩正在逼近50%的大关。

在AI领域,这是一个具有象征意义的数字,因为它标志着人工智能正在从死记硬背的知识库,向具备通用智能雏形的真正智力体转变。

它不再只是模仿已有的答案,而是开始具备解决全新、未见过问题的基础能力。

除了纯逻辑推理,Gemini 3在数学和事实核查上也树立了新标杆。

在MathArena Apex测试中,它取得了目前所有模型中的最好成绩,证明了这不仅仅是记忆力的胜利,更是逻辑推演能力的胜利。

在商业应用最为看重的事实一致性方面,SimpleQA Verified得分高达72.1%,这意味着模型胡编乱造的幻觉问题大幅减少,其实用性和可信度得到了质的提升。image.png

当多模态遇上行动力:从看见到做到

技术的进步最终要服务于应用。Gemini 3标志着AI的应用场景正在经历一场从能回答问题到能处理真实任务的根本性转变。

在多模态理解上,Gemini 3展现了极高的抽象思维能力。在MMMU-Pro和Video-MMMU测试中,它不仅能识别图像,还能理解其中的结构和因果关系。

比如,它不仅能阅读托卡马克核聚变装置的学术论文,还能将其中的等离子体流可视化,甚至为此创作诗歌。

在日常生活中,它可以帮用户翻译潦草的手写菜谱,或者阅读长视频并生成结构化的学习卡片,甚至像专业教练一样分析你的运动视频并给出训练计划。

更具颠覆性的是谷歌在搜索端推出的生成式界面(Generative Interface)。

这可能是搜索引擎诞生以来最大的一次交互变革。当你搜索RNA聚合酶如何工作时,屏幕上不再是枯燥的蓝色链接列表,而是一个由AI现场生成的、可旋转、可交互的3D分子模型和动画演示。

这就好比通过一次搜索,AI为你临时搭建了一个专属的定制网页,其信息理解效率远超传统的百科全书。image.png

对于开发者而言,新的AI开发环境Google Antigravity同样是一次革命。它不再只是一个帮你补全代码或修改Bug的辅助工具,而是一个能自己做项目的合作伙伴。

内置的Agent(智能体)能够规划并执行完整的软件任务链条——从查阅资料、编写代码到测试验证,实现了推理、工具调用和代码生成的深度整合。

为了验证这种长程规划能力,谷歌在Vending-Bench 2基准中让Gemini 3经营一个虚拟的自动售货机。

结果显示,Gemini 3 Pro表现出了罕见的一致性:它能够稳定调用工具,不走神,也不忘却长期盈利的目标,最终获得了比其他模型更高的收益。这说明它已经具备了坚持做完一件事的执行力。

系统性优势构建的护城河

纵观Gemini 3的发布,我们看到的不仅仅是算法层面的胜利,更是谷歌多年来在基础设施领域深耕的成果爆发。image.png

Gemini 3的强大,源于谷歌动用了其所有的战略资源:自研的TPU芯片提供了庞大的算力支撑,数量级差异的专有数据提供了知识养料,以及大规模训练工程和顶尖人才储备构建的技术底座。

这种系统性的优势构成了谷歌的护城河。Gemini 3展示出的能力差距,在很大程度上反映了谷歌在基础设施与技术栈上的深厚积累。

通过这次发布,谷歌不仅巩固了其在AI领域的领先地位,也给整个行业留下了一个悬念:在这一轮以推理和行动力为核心的竞赛中,其他的追赶者能否跟上这令人窒息的节奏?

但无论如何,对于用户而言,一个更聪明、更懂思考、更能干实事的AI时代,已经正式到来了。

 


“谷歌深夜炸场!Gemini 3震撼发布:博士级推理吊打前代,OpenAI奥特曼点赞” 的相关文章

程序员不再写代码,而是靠「感觉」!年度热词Vibe Coding背后的编程革命

程序员不再写代码,而是靠「感觉」!年度热词Vibe Coding背后的编程革命

 🌟 当「vibe coding(氛围编程)」改变世界:一场理性与浪漫的奇妙融合I. 引言:从玩笑到年度热词如果说有什么词汇能精准概括2025年科技圈的氛围,那非 “vibe coding”...

震撼业界!Nano Banana 2 模型泄露曝光:AI图像生成迈入新纪元

震撼业界!Nano Banana 2 模型泄露曝光:AI图像生成迈入新纪元

 🍌 Nano Banana 2 图像生成模型泄露及其影响分析I. 事件背景与模型初次曝光过去一周,业内一则“意外泄露”事件几乎在创意科技圈迅速引爆。名为 Nano Banana 2 的图像...

马斯克新模型屠榜,包揽前二!马斯克:已经没有真正能考AI的测试题了,终极测试是现实世界

马斯克新模型屠榜,包揽前二!马斯克:已经没有真正能考AI的测试题了,终极测试是现实世界

 2025年,AI大模型的竞争已进入深水区,技术的迭代速度令人目不暇接。xAI在这一背景下悄然推出了其旗舰模型Grok 4.1,这一发布不仅先于业界翘首以盼的Google Gemini 3,...

Gemini 3.0 Pro模型卡曝光,多模态、知识库能力大幅超越GPT与Claude

Gemini 3.0 Pro模型卡曝光,多模态、知识库能力大幅超越GPT与Claude

 在AI大模型竞争白热化的当下,谷歌即将发布的Gemini 3.0 Pro无疑是业界最期待的事件之一。根据最新的泄露信息和性能指标,我们可以清晰地判断:Gemini 3.0 Pro绝非一次小...

30秒做应用、实时写图文,「灵光」想用AI重塑创造力边界

30秒做应用、实时写图文,「灵光」想用AI重塑创造力边界

 在人工智能大模型领域,竞争的焦点已经悄然发生了转移,不再仅仅局限于谁的模型在基准测试中得分更高。随着“灵光”(Lingguang)的发布,行业趋势正从“谁的模型更强”转向**“谁能将能力更...

仅7800美元!微博VibeThinker以15亿参数“吊打”6710亿巨头,大模型“参数迷信”彻底碎了?

仅7800美元!微博VibeThinker以15亿参数“吊打”6710亿巨头,大模型“参数迷信”彻底碎了?

 当全球科技巨头仍深陷于“参数竞赛”的狂热,试图通过堆砌千亿甚至万亿级参数来换取智能涌现时,一场旨在重塑AI发展路径的“非对称战争”已悄然打响。近日,微博正式发布了其首个自研开源大模型——V...