当前位置:首页 > 大模型评测 > 正文内容

李飞飞的世界模型来了!一句话生成3D世界,AI 真的开始理解现实了

上善若水4个月前 (11-15)大模型评测

 

当地时间 2025 年 11 月 12 日,由“AI 教母”李飞飞创办的 World Labs 正式推出了其首款商用世界模型产品 Marble。

这不仅是一次技术发布,它是世界模型(World Model)从一个充满想象力的学术前沿,正式走向商业应用的标志性事件,标志着人工智能正在从“理解语言”迈向“理解并构建一个可运行的世界”。

Marble 预示着空间智能时代的正式开场。它将彻底改变人类与虚拟世界的交互方式,是具身智能、元宇宙和机器人技术发展的核心基石。image.png

一、Marble 的三大核心支柱:AI 世界构建的革命性突破

Marble 的强大,在于它将高保真生成、交互式编辑、和专业导出能力无缝整合,形成了 AI 世界构建的闭环。

1. 核心能力 01:多模态生成,创建“可走进去”的 3D 世界

Marble 的生成能力颠覆了传统 3D 建模的漫长流程。它支持大规模多模态输入,能够从各种感官输入中推断出世界的完整状态:

文本驱动的即时世界:

用户只需输入一段生动的描述,如“一间被午后阳光洒满的蒸汽朋克风格图书馆”,Marble 就能在几秒内自动提取关键元素、推演空间结构,生成一个逻辑自洽、光影细腻的沉浸式三维空间。

单图的奇迹补完(Outpainting in 3D):

面对一张 2D 照片,Marble 能通过其对透视、几何和光线规律的深刻理解,智能推断出未被拍摄的 3D 空间,将静态图像转化为可自由漫游的 3D 环境。

专业级骨架与风格分离(Chisel 工具):

对于需要精细控制的创作者,Chisel 允许将空间骨架框架(定义物体位置、几何结构)与文本提示描述的视觉风格(定义材质、氛围)进行解耦和自由组合,极大提升了创作的精度和迭代速度。

image.png

2. 核心能力 02:AI 原生编辑,赋予世界“可持续进化”的能力

Marble 的颠覆性在于它将“世界编辑”变成 AI 的原生能力。这使得生成的 3D 世界不再是不可修改的“一次性出图”,而是可以持续进化的生命体。

自然语言的精确操控:

用户可以通过简单的文本指令,进行删除物体、替换材质、调整光照、重构空间布局等复杂操作。模型实时保持修改后的物理和空间逻辑一致性。

大规模世界的扩展与组合:

通过区域扩展,AI 能根据场景逻辑将现有环境无缝延伸;而世界组合模式则允许将多个独立生成的 3D 世界(如房间、街道、庭院)无缝拼接,这为构建宏大、层次丰富、叙事性强的元宇宙或游戏场景提供了前所未有的效率。

3. 核心能力 03:生成即落地,无缝融入专业工作流

Marble 致力于消除 AI 生成与专业制作之间的鸿沟,其产出可直接用于商业环境。

高斯溅射的高保真导出:导出最高精度效果的粒子数据,并依赖开源的 Spark 渲染器实现网页端的实时、高帧率渲染和自由漫游,解决了 3DGS 格式在分享协作中的难题。

行业标准三角网格:提供用于物理模拟的碰撞网格和用于正式场景的高质量网格。这种行业通用格式可无缝导入 Unreal Engine、Unity、Blender 等主流制作工具,极大地缩短了制作周期。image.png

二、技术深度解析:Spark 与 Chisel 如何定义专业级世界模型

Marble 的专业性体现在其对底层技术的精细控制和解耦设计上。

1. Spark 渲染器:释放高斯溅射的 Web 潜力

Spark 的核心意义在于,它将 3D Gaussian Splatting (3DGS) 这种近年来兴起的、拥有极高渲染保真度和速度的尖端格式,引入了大众可触及的领域。

通过优化 WebGL/WebGPU 渲染管线,Spark 使得数千万个高斯粒子数据能够在主流浏览器中流畅加载和实时交互。这不仅让创作者能够即时分享高保真作品,也促进了 3DGS 在 Web、AR/VR 生态中的快速应用。

2. Chisel 工具:分离结构与风格的专业化创作范式

Chisel 工具象征着 AI 创作迈向了工程化、专业化 的阶段。它通过“解耦设计”解决了高精度 AI 创作的迭代难题:

结构控制(骨架):创作者先用 Chisel 定义空间骨架,确保几何结构和物体位置的精确性,这体现了人类对空间逻辑的掌控。

风格迭代(Prompt):随后通过文本提示快速切换材质、光影、氛围等视觉风格。在保持复杂骨架不变的情况下,瞬间重塑场景风格,极大地解放了创作者的想象力,实现了低成本、高效率的创意试验。image.png

三、从工具到基石:Marble 的应用前景与商业模式

Marble 的影响将远远超出传统的 3D 创作工具,其应用前景和商业策略体现了 World Labs 致力于打造基础设施 的决心。

1. 革命性应用前景

游戏与元宇宙:极大地加速游戏地图、沉浸式场景的制作,将原本数周的建模时间缩短到几分钟。

影视 VFX 与动画:快速生成高保真背景和环境,为视觉特效(VFX)提供可定制、可编辑的数字资产。

建筑与工业设计:设计师可以即时将 2D 平面图转化为可漫游的 3D 模型,进行光照、材质的快速试验和客户展示。

机器人与 AR/VR:Marble 生成的物理精确 3D 世界是训练具身智能机器人的环境模拟器和增强现实(AR)内容的可靠来源。

2. 商业模式:灵活的订阅制,推动普惠创新

据了解,Marble 采用了灵活的免费增值(Freemium)与付费订阅模式,以期覆盖从业余爱好者到专业工作室的广泛用户群:

订阅级别核心功能与定位典型价格(参考)
免费版文本/图像/全景图 3D 世界生成(限额),体验基础功能。免费
标准版增加多图像/视频输入、高级编辑权限、更高限额。约每月 $20
专业版包含场景扩展功能、更高的限额,并具备商业使用权。约每月 $35
高级版具备所有功能,极高的使用限额,面向大型工作室和企业客户。约每月 $95

四、攀登空间智能的下一座高峰

李飞飞教授曾明确指出,当前以大型语言模型(LLM)和图像分类器为主导的 AI 时代已接近极限。真正的 AI 必须具备空间智能——它能感知多模态输入,理解几何、物理和动态规则,并与环境进行交互。

Marble 的发布,是 World Labs 推动这一宏大愿景的实质性一步。它正在从构建对三维性、物理性有深入理解的模型开始,最终将能力扩展至增强现实和机器人技术。

Marble 不仅仅是一个工具,它是一个基石,标志着人类正在赋予机器理解和构造我们所处世界的关键能力。AI 从文本世界走向三维世界,这将重新定义未来的创造、探索与协作。

 


“李飞飞的世界模型来了!一句话生成3D世界,AI 真的开始理解现实了” 的相关文章

程序员不再写代码,而是靠「感觉」!年度热词Vibe Coding背后的编程革命

程序员不再写代码,而是靠「感觉」!年度热词Vibe Coding背后的编程革命

 🌟 当「vibe coding(氛围编程)」改变世界:一场理性与浪漫的奇妙融合I. 引言:从玩笑到年度热词如果说有什么词汇能精准概括2025年科技圈的氛围,那非 “vibe coding”...

谷歌放大招!Gemini 3.0 疑似已通过移动端 Canvas 功能低调推送,性能超越 2.5!

谷歌放大招!Gemini 3.0 疑似已通过移动端 Canvas 功能低调推送,性能超越 2.5!

 I. 引言:AI 竞赛白热化,焦点转向迟到的“王牌”背景:市场期待与竞赛升级**近期,OpenAI 再次亮剑,推出了升级版的 GPT-5.1,这无疑进一步推动了 AI 军备竞赛的白热化。然...

一张草图变网页,实测字节 TRAE SOLO,这些功能甚至比 Cursor 还好用

一张草图变网页,实测字节 TRAE SOLO,这些功能甚至比 Cursor 还好用

 AI 编程的痛点与国产方案的破局:打破“卡脖子”困境当前,AI 编程已从概念走向实用,普通用户能利用 AI 快速生成工具,专业开发者也在探索提升效率的极限。然而,我们国内开发者普遍面临一个...

30秒做应用、实时写图文,「灵光」想用AI重塑创造力边界

30秒做应用、实时写图文,「灵光」想用AI重塑创造力边界

 在人工智能大模型领域,竞争的焦点已经悄然发生了转移,不再仅仅局限于谁的模型在基准测试中得分更高。随着“灵光”(Lingguang)的发布,行业趋势正从“谁的模型更强”转向**“谁能将能力更...

一文详解|Gemini-3,及配套的Antigravity、Gemini CLI、生成式 UI、Otter、Firebase

一文详解|Gemini-3,及配套的Antigravity、Gemini CLI、生成式 UI、Otter、Firebase

 Google Gemini 3 深度测评:当 AI 开始能够“手搓”GBA模拟器,我们迎来了一个怎样的时代?一、 从“能用”到“离谱”的实测体验如果说过去我们对 AI 编程能力的期待还停留...