当前位置:首页 > 大模型评测 > 正文内容

李飞飞的世界模型来了!一句话生成3D世界,AI 真的开始理解现实了

上善若水3个月前 (11-15)大模型评测

 

当地时间 2025 年 11 月 12 日,由“AI 教母”李飞飞创办的 World Labs 正式推出了其首款商用世界模型产品 Marble。

这不仅是一次技术发布,它是世界模型(World Model)从一个充满想象力的学术前沿,正式走向商业应用的标志性事件,标志着人工智能正在从“理解语言”迈向“理解并构建一个可运行的世界”。

Marble 预示着空间智能时代的正式开场。它将彻底改变人类与虚拟世界的交互方式,是具身智能、元宇宙和机器人技术发展的核心基石。image.png

一、Marble 的三大核心支柱:AI 世界构建的革命性突破

Marble 的强大,在于它将高保真生成、交互式编辑、和专业导出能力无缝整合,形成了 AI 世界构建的闭环。

1. 核心能力 01:多模态生成,创建“可走进去”的 3D 世界

Marble 的生成能力颠覆了传统 3D 建模的漫长流程。它支持大规模多模态输入,能够从各种感官输入中推断出世界的完整状态:

文本驱动的即时世界:

用户只需输入一段生动的描述,如“一间被午后阳光洒满的蒸汽朋克风格图书馆”,Marble 就能在几秒内自动提取关键元素、推演空间结构,生成一个逻辑自洽、光影细腻的沉浸式三维空间。

单图的奇迹补完(Outpainting in 3D):

面对一张 2D 照片,Marble 能通过其对透视、几何和光线规律的深刻理解,智能推断出未被拍摄的 3D 空间,将静态图像转化为可自由漫游的 3D 环境。

专业级骨架与风格分离(Chisel 工具):

对于需要精细控制的创作者,Chisel 允许将空间骨架框架(定义物体位置、几何结构)与文本提示描述的视觉风格(定义材质、氛围)进行解耦和自由组合,极大提升了创作的精度和迭代速度。

image.png

2. 核心能力 02:AI 原生编辑,赋予世界“可持续进化”的能力

Marble 的颠覆性在于它将“世界编辑”变成 AI 的原生能力。这使得生成的 3D 世界不再是不可修改的“一次性出图”,而是可以持续进化的生命体。

自然语言的精确操控:

用户可以通过简单的文本指令,进行删除物体、替换材质、调整光照、重构空间布局等复杂操作。模型实时保持修改后的物理和空间逻辑一致性。

大规模世界的扩展与组合:

通过区域扩展,AI 能根据场景逻辑将现有环境无缝延伸;而世界组合模式则允许将多个独立生成的 3D 世界(如房间、街道、庭院)无缝拼接,这为构建宏大、层次丰富、叙事性强的元宇宙或游戏场景提供了前所未有的效率。

3. 核心能力 03:生成即落地,无缝融入专业工作流

Marble 致力于消除 AI 生成与专业制作之间的鸿沟,其产出可直接用于商业环境。

高斯溅射的高保真导出:导出最高精度效果的粒子数据,并依赖开源的 Spark 渲染器实现网页端的实时、高帧率渲染和自由漫游,解决了 3DGS 格式在分享协作中的难题。

行业标准三角网格:提供用于物理模拟的碰撞网格和用于正式场景的高质量网格。这种行业通用格式可无缝导入 Unreal Engine、Unity、Blender 等主流制作工具,极大地缩短了制作周期。image.png

二、技术深度解析:Spark 与 Chisel 如何定义专业级世界模型

Marble 的专业性体现在其对底层技术的精细控制和解耦设计上。

1. Spark 渲染器:释放高斯溅射的 Web 潜力

Spark 的核心意义在于,它将 3D Gaussian Splatting (3DGS) 这种近年来兴起的、拥有极高渲染保真度和速度的尖端格式,引入了大众可触及的领域。

通过优化 WebGL/WebGPU 渲染管线,Spark 使得数千万个高斯粒子数据能够在主流浏览器中流畅加载和实时交互。这不仅让创作者能够即时分享高保真作品,也促进了 3DGS 在 Web、AR/VR 生态中的快速应用。

2. Chisel 工具:分离结构与风格的专业化创作范式

Chisel 工具象征着 AI 创作迈向了工程化、专业化 的阶段。它通过“解耦设计”解决了高精度 AI 创作的迭代难题:

结构控制(骨架):创作者先用 Chisel 定义空间骨架,确保几何结构和物体位置的精确性,这体现了人类对空间逻辑的掌控。

风格迭代(Prompt):随后通过文本提示快速切换材质、光影、氛围等视觉风格。在保持复杂骨架不变的情况下,瞬间重塑场景风格,极大地解放了创作者的想象力,实现了低成本、高效率的创意试验。image.png

三、从工具到基石:Marble 的应用前景与商业模式

Marble 的影响将远远超出传统的 3D 创作工具,其应用前景和商业策略体现了 World Labs 致力于打造基础设施 的决心。

1. 革命性应用前景

游戏与元宇宙:极大地加速游戏地图、沉浸式场景的制作,将原本数周的建模时间缩短到几分钟。

影视 VFX 与动画:快速生成高保真背景和环境,为视觉特效(VFX)提供可定制、可编辑的数字资产。

建筑与工业设计:设计师可以即时将 2D 平面图转化为可漫游的 3D 模型,进行光照、材质的快速试验和客户展示。

机器人与 AR/VR:Marble 生成的物理精确 3D 世界是训练具身智能机器人的环境模拟器和增强现实(AR)内容的可靠来源。

2. 商业模式:灵活的订阅制,推动普惠创新

据了解,Marble 采用了灵活的免费增值(Freemium)与付费订阅模式,以期覆盖从业余爱好者到专业工作室的广泛用户群:

订阅级别核心功能与定位典型价格(参考)
免费版文本/图像/全景图 3D 世界生成(限额),体验基础功能。免费
标准版增加多图像/视频输入、高级编辑权限、更高限额。约每月 $20
专业版包含场景扩展功能、更高的限额,并具备商业使用权。约每月 $35
高级版具备所有功能,极高的使用限额,面向大型工作室和企业客户。约每月 $95

四、攀登空间智能的下一座高峰

李飞飞教授曾明确指出,当前以大型语言模型(LLM)和图像分类器为主导的 AI 时代已接近极限。真正的 AI 必须具备空间智能——它能感知多模态输入,理解几何、物理和动态规则,并与环境进行交互。

Marble 的发布,是 World Labs 推动这一宏大愿景的实质性一步。它正在从构建对三维性、物理性有深入理解的模型开始,最终将能力扩展至增强现实和机器人技术。

Marble 不仅仅是一个工具,它是一个基石,标志着人类正在赋予机器理解和构造我们所处世界的关键能力。AI 从文本世界走向三维世界,这将重新定义未来的创造、探索与协作。

 


“李飞飞的世界模型来了!一句话生成3D世界,AI 真的开始理解现实了” 的相关文章

Gemini 3.0 Pro模型卡曝光,多模态、知识库能力大幅超越GPT与Claude

Gemini 3.0 Pro模型卡曝光,多模态、知识库能力大幅超越GPT与Claude

 在AI大模型竞争白热化的当下,谷歌即将发布的Gemini 3.0 Pro无疑是业界最期待的事件之一。根据最新的泄露信息和性能指标,我们可以清晰地判断:Gemini 3.0 Pro绝非一次小...

谷歌深夜炸场!Gemini 3震撼发布:博士级推理吊打前代,OpenAI奥特曼点赞

谷歌深夜炸场!Gemini 3震撼发布:博士级推理吊打前代,OpenAI奥特曼点赞

 科技界刚刚迎来了一个里程碑式的时刻。谷歌正式宣布推出Gemini 3,目前Gemini 3 Pro版本已经面向全球Gemini App和Google AI Studio用户全面推送,这一动...

蚂蚁“灵光”上线:一句话生成App,Vibe Coding时代真的来了

蚂蚁“灵光”上线:一句话生成App,Vibe Coding时代真的来了

 在通义千问已经建立了坚实的技术护城河之后,蚂蚁集团带着它的全新AI助手——“灵光”正式入局。如果说之前的AI竞争更多是在比拼参数量和逻辑推理的“硬核”实力,那么灵光的出现,似乎想向市场证明...

仅7800美元!微博VibeThinker以15亿参数“吊打”6710亿巨头,大模型“参数迷信”彻底碎了?

仅7800美元!微博VibeThinker以15亿参数“吊打”6710亿巨头,大模型“参数迷信”彻底碎了?

 当全球科技巨头仍深陷于“参数竞赛”的狂热,试图通过堆砌千亿甚至万亿级参数来换取智能涌现时,一场旨在重塑AI发展路径的“非对称战争”已悄然打响。近日,微博正式发布了其首个自研开源大模型——V...

AI图像巨变:告别“文盲”!Gemini 3 Pro如何让画面开始“识字”和“思考”?

AI图像巨变:告别“文盲”!Gemini 3 Pro如何让画面开始“识字”和“思考”?

 🍌 巨头的新魔术:当AI图像开始“识字”和“思考”一、 引言:能力超群与重要转折点Google 的 Gemini 3 Pro 图像生成能力一经推出,便接受了全球创作者和技术爱好者的“反复折...

Nano-banana 完整使用指南:教程、案例、白嫖网站,看这一篇就够了!

Nano-banana 完整使用指南:教程、案例、白嫖网站,看这一篇就够了!

 在 AI 大模型的世界里,变革总是来得比我们想象中更快。最近,一个新星以迅雷不及掩耳之势,彻底颠覆了我们对图像生成与编辑的认知。它的小名叫“纳米香蕉”(Nano-banana),大名则是...