当前位置:首页 > 大模型评测 > 正文内容

谷歌深夜炸场!Gemini 3震撼发布:博士级推理吊打前代,OpenAI奥特曼点赞

上善若水3个月前 (11-19)大模型评测

 

科技界刚刚迎来了一个里程碑式的时刻。

谷歌正式宣布推出Gemini 3,目前Gemini 3 Pro版本已经面向全球Gemini App和Google AI Studio用户全面推送,这一动作甚至比部分业内人士预期的还要快。

对于这次发布,谷歌官方给出了极高的定义——这不仅是一次版本更新,更是一次彻头彻尾的代际升级。

这一次,Gemini 3并没有停留在单纯的数据堆砌上,而是在推理能力、多模态理解以及工具使用等核心维度上,实现了对前代2.5和2.0系列的全面超越。image.png

这种显著的性能飞跃甚至引起了竞争对手的关注,OpenAI首席执行官山姆·奥特曼也在社交媒体上罕见点赞,这一细节足以印证Gemini 3在行业内引发的震动。

从单纯回答问题到深度思考的进化

若要用一个词概括Gemini 3的核心变化,那就是推理。它不再仅仅是一个能够快速检索和拼凑信息的助手,而是进化成了一个能够将抽象想法转化为现实方案的思考者。

在权威的LMArena排行榜中,Gemini 3以1501分的高分稳居榜首。这个分数背后,代表着模型在开放式问答、长对话以及复杂任务拆解中表现出了前所未有的稳定性和一致性。

更令人印象深刻的是它在硬核学术基准上的表现。在Humanity’s Last Exam(人类终极考试)和GPQA(研究生级别问答)测试中,它分别取得了37.5%和91.9%的成绩。

这里的91.9%意味着,在不需要借助外部工具进行纯推理的情况下,它的表现已经接近甚至达到了博士研究生的水平。image.png

但这还不是全部。Gemini 3引入了一项名为Deep Think(深度思考)的关键技术。

你可以将其想象为人类的慢思考模式——当遇到难题时,我们不会脱口而出,而是会停下来,在脑海中进行反复推演和逻辑构建。

开启Deep Think模式后,Gemini 3展现出了非线性的能力跃迁。在测试创造性与新颖推理能力的ARC-AGI-2基准上,它的得分达到了45.1%,这一成绩正在逼近50%的大关。

在AI领域,这是一个具有象征意义的数字,因为它标志着人工智能正在从死记硬背的知识库,向具备通用智能雏形的真正智力体转变。

它不再只是模仿已有的答案,而是开始具备解决全新、未见过问题的基础能力。

除了纯逻辑推理,Gemini 3在数学和事实核查上也树立了新标杆。

在MathArena Apex测试中,它取得了目前所有模型中的最好成绩,证明了这不仅仅是记忆力的胜利,更是逻辑推演能力的胜利。

在商业应用最为看重的事实一致性方面,SimpleQA Verified得分高达72.1%,这意味着模型胡编乱造的幻觉问题大幅减少,其实用性和可信度得到了质的提升。image.png

当多模态遇上行动力:从看见到做到

技术的进步最终要服务于应用。Gemini 3标志着AI的应用场景正在经历一场从能回答问题到能处理真实任务的根本性转变。

在多模态理解上,Gemini 3展现了极高的抽象思维能力。在MMMU-Pro和Video-MMMU测试中,它不仅能识别图像,还能理解其中的结构和因果关系。

比如,它不仅能阅读托卡马克核聚变装置的学术论文,还能将其中的等离子体流可视化,甚至为此创作诗歌。

在日常生活中,它可以帮用户翻译潦草的手写菜谱,或者阅读长视频并生成结构化的学习卡片,甚至像专业教练一样分析你的运动视频并给出训练计划。

更具颠覆性的是谷歌在搜索端推出的生成式界面(Generative Interface)。

这可能是搜索引擎诞生以来最大的一次交互变革。当你搜索RNA聚合酶如何工作时,屏幕上不再是枯燥的蓝色链接列表,而是一个由AI现场生成的、可旋转、可交互的3D分子模型和动画演示。

这就好比通过一次搜索,AI为你临时搭建了一个专属的定制网页,其信息理解效率远超传统的百科全书。image.png

对于开发者而言,新的AI开发环境Google Antigravity同样是一次革命。它不再只是一个帮你补全代码或修改Bug的辅助工具,而是一个能自己做项目的合作伙伴。

内置的Agent(智能体)能够规划并执行完整的软件任务链条——从查阅资料、编写代码到测试验证,实现了推理、工具调用和代码生成的深度整合。

为了验证这种长程规划能力,谷歌在Vending-Bench 2基准中让Gemini 3经营一个虚拟的自动售货机。

结果显示,Gemini 3 Pro表现出了罕见的一致性:它能够稳定调用工具,不走神,也不忘却长期盈利的目标,最终获得了比其他模型更高的收益。这说明它已经具备了坚持做完一件事的执行力。

系统性优势构建的护城河

纵观Gemini 3的发布,我们看到的不仅仅是算法层面的胜利,更是谷歌多年来在基础设施领域深耕的成果爆发。image.png

Gemini 3的强大,源于谷歌动用了其所有的战略资源:自研的TPU芯片提供了庞大的算力支撑,数量级差异的专有数据提供了知识养料,以及大规模训练工程和顶尖人才储备构建的技术底座。

这种系统性的优势构成了谷歌的护城河。Gemini 3展示出的能力差距,在很大程度上反映了谷歌在基础设施与技术栈上的深厚积累。

通过这次发布,谷歌不仅巩固了其在AI领域的领先地位,也给整个行业留下了一个悬念:在这一轮以推理和行动力为核心的竞赛中,其他的追赶者能否跟上这令人窒息的节奏?

但无论如何,对于用户而言,一个更聪明、更懂思考、更能干实事的AI时代,已经正式到来了。

 


“谷歌深夜炸场!Gemini 3震撼发布:博士级推理吊打前代,OpenAI奥特曼点赞” 的相关文章

阿里云通义大模型“爆发式实战”:14 亿次调用刷新“双11”AI新纪录!

阿里云通义大模型“爆发式实战”:14 亿次调用刷新“双11”AI新纪录!

 在刚刚过去的“双11”购物节中,除了创纪录的交易量,另一项令人瞩目的突破来自技术层面——阿里云通义系列大模型迎来了首次全面、实战级的大规模应用。这不仅是阿里巴巴在大模型领域的一次重要落地,...

谷歌 NotebookLM 推出“深度研究”:AI 助你 5 分钟构建专家级知识库,效率暴涨!

谷歌 NotebookLM 推出“深度研究”:AI 助你 5 分钟构建专家级知识库,效率暴涨!

 一、引言:暖心升级,告别碎片化学习11 月 13 日,科技巨头谷歌旗下的 AI 笔记工具 NotebookLM 迎来了一次值得所有内容创作者和研究人员关注的重大更新。这次升级的核心,是推出...

深度解读!GPT-5.1重磅升级:自适应推理如何让AI拥有“人情味”?

深度解读!GPT-5.1重磅升级:自适应推理如何让AI拥有“人情味”?

 🌟 引言:GPT-5代际的“温暖”小升级OpenAI本周将开始向用户推送GPT-5.1模型。虽然型号数字的小幅跃升(从5到5.1)暗示这可能是一次介于大版本之间的迭代,但从我们F型人格的角...

李飞飞的世界模型来了!一句话生成3D世界,AI 真的开始理解现实了

李飞飞的世界模型来了!一句话生成3D世界,AI 真的开始理解现实了

 当地时间 2025 年 11 月 12 日,由“AI 教母”李飞飞创办的 World Labs 正式推出了其首款商用世界模型产品 Marble。这不仅是一次技术发布,它是世界模型(Worl...

谷歌杀回来了!Gemini 3 全面碾压 GPT-5.1,AI 霸主正式归位

谷歌杀回来了!Gemini 3 全面碾压 GPT-5.1,AI 霸主正式归位

 当地时间周二,Google Alphabet 正式发布了其最新的旗舰 AI 模型——Gemini 3。这一时刻不仅是谷歌技术迭代的时间节点,更可能是人工智能发展史上的一个分水岭。如果说之前...