一文详解|Gemini-3,及配套的Antigravity、Gemini CLI、生成式 UI、Otter、Firebase
Google Gemini 3 深度测评:当 AI 开始能够“手搓”GBA模拟器,我们迎来了一个怎样的时代? 如果说过去我们对 AI 编程能力的期待还停留在“帮我写个冒泡排序”或者“解释一下这段代码”,那么 Gemini 3 的出现彻底粉碎了这种循序渐进的想象。 当你看到一个单一的 HTML 文件在浏览器中跑起了一个紫色的 Game Boy Advance (GBA) 模拟器,并且还能流畅运行中文版的《口袋妖怪》回合制战斗,甚至连复古的 Web Audio 音效都完美复刻时,你会感到一种头皮发麻的震撼。 最可怕的不是它能做出来,而是它的产生方式:Zero-shot。没有任何多轮对话的引导,没有任何痛苦的 Debug 过程,仅仅是一段描述需求的 Prompt,它就直接交付了一个完整、可运行的项目。 这种震撼在多模态和创意领域同样在蔓延。无论是小学生练字时那仿佛真的由铅笔在纸上划过的拟真手写字迹,还是 Twitter 社区里网友们挖掘出的各种离谱应用(比如通过一张图片提示词生成交互式网页),都展示了 Gemini 3 对物理世界和人类意图的极深理解。 在专业领域,一位大厂前端工程师尝试让它直接还原 Figma 设计稿,结果发现其还原度之高,甚至超过了许多初级工程师经过多次走查后的水平。这不再是简单的代码补全,这是对视觉设计逻辑的深度重构。 Gemini 3 的发布,并不是单纯推出一个新的聊天机器人,而是一次Google对 AI 生态的全面重塑。 本次发布的主角不仅有被誉为当前“地表最强模型”的 Gemini 3 Pro,它在多模态处理、超长上下文窗口以及 Agentic Coding(代理编码)方面都展现了统治级的实力。 伴随模型而来的,是完整的产品矩阵:为 AI 时代原生打造的 Agent 开发平台 Google Antigravity;彻底颠覆搜索体验的 Generative UI;以及从 Android Studio 到 Firebase 再到 Gemini CLI 的全线开发工具链接入。这一套组合拳清晰地表明,Google 正在将其庞大的基础设施优势转化为 AI 时代的护城河。 在硬指标上,Gemini 3 确实是个“数值怪”。在权威的 LMArena 竞技场中,它以 1501 Elo 分的成绩断层领先,稳居榜首。 在考察商业规划能力的 Vending-Bench 2 测试中,其表现更是遥遥领先于同期竞品。 但分数只是表象,真正的核心竞争力在于其引入的 Deep Think(深度思考模式)。这一模式让 AI 在面对复杂任务时,不再急于“抢答”,而是像人类专家一样进入慢思考状态。 系统引入了 Thought Signatures(思维签名)机制,API 会返回经过加密的思维过程,其中包含了多步推理、反思纠错和逻辑验证的完整链路。开发者甚至可以通过 Thinking Levels 来配置 AI 的思考时长——简单任务秒回,复杂任务深思。 这种机制带来的提升是立竿见影的。在 Humanity’s Last Exam 中,其得分提升至 41.0%;在不依赖工具的纯推理测试 GPQA Diamond 中,更是达到了惊人的 93.8%。 这赋予了它 Vibe Coding 的能力:开发者只需描述功能的感觉和模糊意图,模型就能凭借强大的逻辑直觉自动实现细节。在 Vibe Coding 这一领域,Gemini 3 无疑是目前的王者。 Google 并没有止步于模型,而是推出了 Google Antigravity,这是一款为“人 + Agent”共生时代设计的 IDE。 传统的 IDE 是为人设计的,AI 只是辅助(Copilot);而 Antigravity 是以“任务”为核心单元。在这里,前端 Agent、后端 Agent 和文档 Agent 可以并行工作。 更具颠覆性的是它的 自主权(Autonomy):Agent 拥有对编辑器、终端和浏览器的控制权,它们可以自己运行代码、看到报错、自己修复,最后交付给人类标准化的 Artifacts(产物)。 在这种新范式下,人类的角色从“写代码的工人”变成了“审查和批准的老板”,而 AI 则是不知疲倦的员工。 对于极客开发者,Gemini CLI 同样令人兴奋。通过 npm 安装后,你可以用自然语言指挥终端执行复杂的 Git 操作(如 git bisect),或者直接对文件系统进行读写和重构。 最科幻的演示莫过于让 CLI“看”一眼金门大桥的图片,然后直接在终端里生成了对应的 3D 模型代码。 Google 最核心的搜索业务也迎来了 Generative UI 的变革。核心理念是“Search is an App”。 当你启用 AI Mode 进行搜索时,得到的结果不再是一串蓝色的超链接,而是一个实时生成、千人千面的交互界面。 如果你在做产品对比,它会生成动态表格;如果你在研究物理现象(比如三体问题),它甚至会现场编写并渲染一个物理模拟器。 HTML、JS、CSS 组件在毫秒间被组装、渲染,屏幕上的内容是 AI 根据你的意图瞬间“变”出来的。这标志着互联网信息的呈现方式,正在从静态网页向动态生成的微应用转变。 Google 强大的生态基建能力在这次更新中展露无遗。在 Android 开发领域,新版 Android Studio "Otter" 引入了 Agent Mode。 它拥有一百万 Token 的上下文支持,不再局限于当前打开的文件,而是能理解整个项目工程。这意味着它可以执行模糊指令重构,或者跨越数十个文件进行复杂的逻辑修改,且全程符合企业级的权限管控。 对于移动应用开发者,Firebase AI Logic 解决了一个巨大的痛点。过去在移动端接入大模型,开发者不得不自建后端来转发请求以保护 API Key。 现在,通过 Serverless 直连模式,客户端 SDK 可以直接与模型对话,鉴权和计费由 Google 托管。同时,SDK 还能自动处理 Thought Signatures,让开发者轻松获取模型的推理路径,配合 App Check 安全监控,大大降低了 AI原生应用的开发门槛。 最后看一眼具体参数。目前开放的模型版本为 gemini-3-pro-preview,标配 100万 token 的输入窗口和 64k 的输出窗口,支持文本、图像、音频、视频、PDF 等全方位多模态输入。 价格方面,Google 采取了相当激进的策略:输入每百万 Token 2.00 美元,输出每百万 Token 12.00 美元。 考虑到其带来的 Deep Think 能力和 Agent 级的自主性,这个定价在高端模型市场极具竞争力。目前,该模型已通过 Google AI Studio、Vertex AI 以及 Gemini Enterprise 等渠道全面开放。 如果说过去的一年里,人们还在讨论 Google 是否在大模型竞赛中掉队,那么 Gemini 3 的发布就是一记响亮的耳光。 它不仅证明了 Google 在底层算法上的深厚积累,更展示了其将尖端技术转化为生产力工具、甚至重构整个互联网交互形态的可怕能力。 无论是手搓模拟器的神迹,还是 Antigravity 里的全自动开发流,都告诉我们:Google 依然是那个 Google,而 Gemini 3,真的很强。一、 从“能用”到“离谱”的实测体验


二、 核心发布:Google 的全栈反击

三、 模型硬实力:数值怪兽背后的“深思”机制
四、 重型生产力:重新定义“人机关系”

五、 交互革命:当搜索变成应用

六、 开发者生态:从移动端到云端的无缝接入

七、 规格与定价:激进且务实

八、 总结





