当前位置:首页 > 大模型评测 > 正文内容

一文详解|Gemini-3,及配套的Antigravity、Gemini CLI、生成式 UI、Otter、Firebase

上善若水3个月前 (11-19)大模型评测

 

Google Gemini 3 深度测评:当 AI 开始能够“手搓”GBA模拟器,我们迎来了一个怎样的时代?

一、 从“能用”到“离谱”的实测体验

如果说过去我们对 AI 编程能力的期待还停留在“帮我写个冒泡排序”或者“解释一下这段代码”,那么 Gemini 3 的出现彻底粉碎了这种循序渐进的想象。image.png

当你看到一个单一的 HTML 文件在浏览器中跑起了一个紫色的 Game Boy Advance (GBA) 模拟器,并且还能流畅运行中文版的《口袋妖怪》回合制战斗,甚至连复古的 Web Audio 音效都完美复刻时,你会感到一种头皮发麻的震撼。

最可怕的不是它能做出来,而是它的产生方式:Zero-shot。没有任何多轮对话的引导,没有任何痛苦的 Debug 过程,仅仅是一段描述需求的 Prompt,它就直接交付了一个完整、可运行的项目。

这种震撼在多模态和创意领域同样在蔓延。无论是小学生练字时那仿佛真的由铅笔在纸上划过的拟真手写字迹,还是 Twitter 社区里网友们挖掘出的各种离谱应用(比如通过一张图片提示词生成交互式网页),都展示了 Gemini 3 对物理世界和人类意图的极深理解。image.png

在专业领域,一位大厂前端工程师尝试让它直接还原 Figma 设计稿,结果发现其还原度之高,甚至超过了许多初级工程师经过多次走查后的水平。这不再是简单的代码补全,这是对视觉设计逻辑的深度重构。

二、 核心发布:Google 的全栈反击

Gemini 3 的发布,并不是单纯推出一个新的聊天机器人,而是一次Google对 AI 生态的全面重塑。

本次发布的主角不仅有被誉为当前“地表最强模型”的 Gemini 3 Pro,它在多模态处理、超长上下文窗口以及 Agentic Coding(代理编码)方面都展现了统治级的实力。image.png

伴随模型而来的,是完整的产品矩阵:为 AI 时代原生打造的 Agent 开发平台 Google Antigravity;彻底颠覆搜索体验的 Generative UI;以及从 Android Studio 到 Firebase 再到 Gemini CLI 的全线开发工具链接入。这一套组合拳清晰地表明,Google 正在将其庞大的基础设施优势转化为 AI 时代的护城河。

三、 模型硬实力:数值怪兽背后的“深思”机制

在硬指标上,Gemini 3 确实是个“数值怪”。在权威的 LMArena 竞技场中,它以 1501 Elo 分的成绩断层领先,稳居榜首。

在考察商业规划能力的 Vending-Bench 2 测试中,其表现更是遥遥领先于同期竞品。

但分数只是表象,真正的核心竞争力在于其引入的 Deep Think(深度思考模式)。这一模式让 AI 在面对复杂任务时,不再急于“抢答”,而是像人类专家一样进入慢思考状态。

系统引入了 Thought Signatures(思维签名)机制,API 会返回经过加密的思维过程,其中包含了多步推理、反思纠错和逻辑验证的完整链路。开发者甚至可以通过 Thinking Levels 来配置 AI 的思考时长——简单任务秒回,复杂任务深思。

这种机制带来的提升是立竿见影的。在 Humanity’s Last Exam 中,其得分提升至 41.0%;在不依赖工具的纯推理测试 GPQA Diamond 中,更是达到了惊人的 93.8%。

这赋予了它 Vibe Coding 的能力:开发者只需描述功能的感觉和模糊意图,模型就能凭借强大的逻辑直觉自动实现细节。在 Vibe Coding 这一领域,Gemini 3 无疑是目前的王者。

四、 重型生产力:重新定义“人机关系”

Google 并没有止步于模型,而是推出了 Google Antigravity,这是一款为“人 + Agent”共生时代设计的 IDE。

传统的 IDE 是为人设计的,AI 只是辅助(Copilot);而 Antigravity 是以“任务”为核心单元。在这里,前端 Agent、后端 Agent 和文档 Agent 可以并行工作。image.png

更具颠覆性的是它的 自主权(Autonomy):Agent 拥有对编辑器、终端和浏览器的控制权,它们可以自己运行代码、看到报错、自己修复,最后交付给人类标准化的 Artifacts(产物)。

在这种新范式下,人类的角色从“写代码的工人”变成了“审查和批准的老板”,而 AI 则是不知疲倦的员工。

对于极客开发者,Gemini CLI 同样令人兴奋。通过 npm 安装后,你可以用自然语言指挥终端执行复杂的 Git 操作(如 git bisect),或者直接对文件系统进行读写和重构。

最科幻的演示莫过于让 CLI“看”一眼金门大桥的图片,然后直接在终端里生成了对应的 3D 模型代码。

五、 交互革命:当搜索变成应用

Google 最核心的搜索业务也迎来了 Generative UI 的变革。核心理念是“Search is an App”。

当你启用 AI Mode 进行搜索时,得到的结果不再是一串蓝色的超链接,而是一个实时生成、千人千面的交互界面。image.png

如果你在做产品对比,它会生成动态表格;如果你在研究物理现象(比如三体问题),它甚至会现场编写并渲染一个物理模拟器。

HTML、JS、CSS 组件在毫秒间被组装、渲染,屏幕上的内容是 AI 根据你的意图瞬间“变”出来的。这标志着互联网信息的呈现方式,正在从静态网页向动态生成的微应用转变。

六、 开发者生态:从移动端到云端的无缝接入

Google 强大的生态基建能力在这次更新中展露无遗。在 Android 开发领域,新版 Android Studio "Otter" 引入了 Agent Mode。

它拥有一百万 Token 的上下文支持,不再局限于当前打开的文件,而是能理解整个项目工程。这意味着它可以执行模糊指令重构,或者跨越数十个文件进行复杂的逻辑修改,且全程符合企业级的权限管控。

对于移动应用开发者,Firebase AI Logic 解决了一个巨大的痛点。过去在移动端接入大模型,开发者不得不自建后端来转发请求以保护 API Key。

现在,通过 Serverless 直连模式,客户端 SDK 可以直接与模型对话,鉴权和计费由 Google 托管。同时,SDK 还能自动处理 Thought Signatures,让开发者轻松获取模型的推理路径,配合 App Check 安全监控,大大降低了 AI原生应用的开发门槛。image.png

七、 规格与定价:激进且务实

最后看一眼具体参数。目前开放的模型版本为 gemini-3-pro-preview,标配 100万 token 的输入窗口和 64k 的输出窗口,支持文本、图像、音频、视频、PDF 等全方位多模态输入。

价格方面,Google 采取了相当激进的策略:输入每百万 Token 2.00 美元,输出每百万 Token 12.00 美元。

考虑到其带来的 Deep Think 能力和 Agent 级的自主性,这个定价在高端模型市场极具竞争力。目前,该模型已通过 Google AI Studio、Vertex AI 以及 Gemini Enterprise 等渠道全面开放。image.png

八、 总结

如果说过去的一年里,人们还在讨论 Google 是否在大模型竞赛中掉队,那么 Gemini 3 的发布就是一记响亮的耳光。

它不仅证明了 Google 在底层算法上的深厚积累,更展示了其将尖端技术转化为生产力工具、甚至重构整个互联网交互形态的可怕能力。

无论是手搓模拟器的神迹,还是 Antigravity 里的全自动开发流,都告诉我们:Google 依然是那个 Google,而 Gemini 3,真的很强。

 


“一文详解|Gemini-3,及配套的Antigravity、Gemini CLI、生成式 UI、Otter、Firebase” 的相关文章

程序员不再写代码,而是靠「感觉」!年度热词Vibe Coding背后的编程革命

程序员不再写代码,而是靠「感觉」!年度热词Vibe Coding背后的编程革命

 🌟 当「vibe coding(氛围编程)」改变世界:一场理性与浪漫的奇妙融合I. 引言:从玩笑到年度热词如果说有什么词汇能精准概括2025年科技圈的氛围,那非 “vibe coding”...

谷歌放大招!Gemini 3.0 疑似已通过移动端 Canvas 功能低调推送,性能超越 2.5!

谷歌放大招!Gemini 3.0 疑似已通过移动端 Canvas 功能低调推送,性能超越 2.5!

 I. 引言:AI 竞赛白热化,焦点转向迟到的“王牌”背景:市场期待与竞赛升级**近期,OpenAI 再次亮剑,推出了升级版的 GPT-5.1,这无疑进一步推动了 AI 军备竞赛的白热化。然...

一张草图变网页,实测字节 TRAE SOLO,这些功能甚至比 Cursor 还好用

一张草图变网页,实测字节 TRAE SOLO,这些功能甚至比 Cursor 还好用

 AI 编程的痛点与国产方案的破局:打破“卡脖子”困境当前,AI 编程已从概念走向实用,普通用户能利用 AI 快速生成工具,专业开发者也在探索提升效率的极限。然而,我们国内开发者普遍面临一个...

Gemini 3.0 Pro模型卡曝光,多模态、知识库能力大幅超越GPT与Claude

Gemini 3.0 Pro模型卡曝光,多模态、知识库能力大幅超越GPT与Claude

 在AI大模型竞争白热化的当下,谷歌即将发布的Gemini 3.0 Pro无疑是业界最期待的事件之一。根据最新的泄露信息和性能指标,我们可以清晰地判断:Gemini 3.0 Pro绝非一次小...

30秒做应用、实时写图文,「灵光」想用AI重塑创造力边界

30秒做应用、实时写图文,「灵光」想用AI重塑创造力边界

 在人工智能大模型领域,竞争的焦点已经悄然发生了转移,不再仅仅局限于谁的模型在基准测试中得分更高。随着“灵光”(Lingguang)的发布,行业趋势正从“谁的模型更强”转向**“谁能将能力更...

仅7800美元!微博VibeThinker以15亿参数“吊打”6710亿巨头,大模型“参数迷信”彻底碎了?

仅7800美元!微博VibeThinker以15亿参数“吊打”6710亿巨头,大模型“参数迷信”彻底碎了?

 当全球科技巨头仍深陷于“参数竞赛”的狂热,试图通过堆砌千亿甚至万亿级参数来换取智能涌现时,一场旨在重塑AI发展路径的“非对称战争”已悄然打响。近日,微博正式发布了其首个自研开源大模型——V...