从语言到世界:李飞飞定义空间智能,AI的下一个十年与“世界模型”
从语言到世界:空间智能是 AI 的下一个前沿
一、引言:AI 的现状与下一个前沿
人工智能(AI)的征程,始于艾伦·图灵那个振聋发聩的问题:“机器能思考吗?”
一个多世纪以来,我们沿着这条道路不断探索,从早期的符号逻辑到如今席卷全球的大型语言模型(LLM),AI 已经展现出惊人的语言驾驭能力。

然而,今天的 AI 仍然像是**“黑暗中的文匠”**。它们能言善辩,可以在文本世界中翻江倒海,却缺乏对物理现实世界的深刻理解。它们可以写出优美的诗歌,却无法稳稳地接住一个抛来的球;它们可以规划复杂的行程,却无法在拥挤的街道上安全穿行。
这种局限性表明,我们虽然取得了巨大的进步,但距离真正的智能仍有本质的距离。
我坚信,AI 的下一个前沿是:空间智能(Spatial Intelligence)。
空间智能将是连接语言与现实世界的桥梁,它将彻底改变我们创造虚拟世界、与物理世界交互的方式,重塑叙事、创意、机器人学乃至科学发现的未来。
长期以来,我对视觉与空间智能的研究从未止步,包括创立了被誉为“AI 诞生三大基石之一”的 ImageNet。
如今,我与团队创立了 World Labs,我们正专注于实现空间智能的愿景,因为它不仅是科学的挑战,更是通往真正通用智能的必经之路。
二、空间智能:人类认知的脚手架
尽管当前的前沿 AI 技术令人赞叹,但它们仍未真正实现我们对自主机器人、加速科学发现和深度赋能人类创造者的目标。要达成这些目标,AI 必须回归其认知的起点。
追溯智能的演化史,智能起源于感知与行动的循环。空间智能,正是定义人类与物理世界互动的基础。
空间智能的重要性(人类层面)
对于人类而言,空间智能是如此自然,以至于我们常常忽略它的存在,但它却是我们流畅性的关键:
日常行为: 无论是判断停车的精确距离、伸出手接住飞来的物件,还是在拥挤的人群中穿行,我们的大脑都能毫不费力地进行复杂的三维空间推理。
想象力与创造力: 讲故事、电影制作、建筑设计、乃至孩子堆的沙堡,都依赖于对空间、几何和物理规律的内化,它们构成了一切交互体验的核心。
文明进步的核心: 历史上无数次飞跃都依赖于卓越的空间推理。埃拉托色尼巧妙地利用日影计算出地球周长;哈格里夫斯通过观察倒下的纺纱机发明了珍妮纺纱机;沃森和克里克发现 DNA 双螺旋结构,无一不是空间思维的胜利。
人类认知的脚手架: 空间智能驱动我们的推理、规划与记忆,是我们与环境互动不可或缺的能力。
当前 AI 空间能力的局限
与人类的流畅性形成鲜明对比的是,当前 AI 在空间能力上仍存在巨大的技术差距。它们对距离、方向和大小的估算仅略高于随机,心智旋转(Mental Rotation)能力有限,无法有效地穿越复杂迷宫或预测简单的物理规律。
更根本的局限在于:当前 AI 对世界的理解缺乏整体性。它们的认知脱节于物理现实,这使得它们无法安全高效地完成具身(Embodied)任务,也无法创造真正沉浸式的体验。
空间智能,正是超越语言的前沿。它连接着想象、感知与行动,开启了机器真正赋能人类生活的无限可能。

三、AI 的下一个十年:构建具备空间智能的机器
我们的目标是打造能像埃拉托色尼那样推理、像工业设计师那样构造、像讲故事的人那样想象,并像应急救援人员那样互动的 AI。
实现这一目标,需要我们超越 LLM 体系,转向**“世界模型(World Model)”**。
世界模型是一种新型的生成式模型,其核心能力是在多重世界中进行理解、推理、生成与交互。
世界模型的核心框架(World Labs 的定义)
一个完整的世界模型,必须具备三个核心特征:
1 生成性 (Generative): 模型必须能够生成在感知、几何与物理层面保持一致性的世界。它不仅要生成像照片一样逼真的图像,更要生成明确、可观测且与过去状态连贯的下一刻世界状态。
2 多模态性 (Multimodal): 世界是多模态的,因此世界模型在设计上必须原生支持多模态。它应能处理图像、视频、文本、动作等多种输入,并能预测或生成完整的世界状态,而不仅仅是文本输出。
3 交互性 (Interactive): 机器智能的终极目标是行动。世界模型必须能够根据输入的“动作”生成世界的下一个状态,并与语义、物理规律保持一致。它甚至能预测实现既定目标所需的下一步行动,是具身智能的驱动核心。
面临的艰巨挑战与研究方向
实现这一愿景并非易事,我们将面临巨大的挑战:
1 新的通用训练任务函数: 我们需要构建能精确反映几何与物理规律的目标函数及其表征方式,以代替传统的语言预测任务。
2 大规模训练数据: 挑战在于如何从海量的图像/视频(本质上是二维 RGB 信号)中提取深层的三维空间信息。这需要能充分利用视觉数据的创新架构。同时,高质量的合成数据和额外的模态(如深度、触觉)采集也至关重要。
3 新型模型架构与表征学习: 我们需要突破当前 MLLM(多模态大模型)和视频扩散模型的范式,探索具备真正三维/四维感知能力的分词、上下文和记忆机制,例如我们 World Labs 正在探索的 RTFM 模型。
尽管挑战重重,我们已经迈出了坚实的第一步。World Labs 首次展示了 Marble 平台——首个能够通过多模态输入,生成并维持一致性三维环境的世界模型。这证明了我们的路径是可行的。
四、利用世界模型,为人类创造更美好的世界
我们的研究发展始终秉持一个核心原则:AI 应增强而非取代人类能力,并且始终尊重人的自主性与尊严。空间智能,正是一个能够极大程度提升人类能力、造福全人类的技术。
从时间维度上看,其应用前景可以分为:短期(创作者工具)、中期(机器人学)、长远(科学应用)。
1. 创造力:赋能故事叙述与沉浸式体验
空间智能将放大并加速人类的创作者潜能,拓展娱乐、教育、设计和建筑的边界。
新维度叙事体验: 创作者可以利用像 Marble 这样的平台,快速创建和迭代一个完全可探索、有物理规律的三维世界,实现艺术、模拟与游戏的无缝融合。
设计空间叙事: 建筑师、工业设计师可以在虚拟世界中快速可视化、漫步于尚未存在的空间,以前所未有的速度和保真度进行设计迭代。
全新沉浸式与交互式体验: 结合 VR/XR 设备,世界模型将使“造世界”的能力向每一位个人创作者开放,提供真正身临其境的交互体验。
2. 机器人:具身智能的实践
空间智能是实现具备真正空间感知能力的自主机器的核心目标。
扩展机器人的学习能力: 世界模型提供了一个高精度、高效率的仿真环境,它能有效缩小模拟与现实的差距,克服训练数据稀缺的问题,让机器人在虚拟环境中快速学习复杂的技能。
人类的伙伴与协作者: 具备空间智能的机器人可以在实验室、家庭等紧缺领域提供支持,不仅能完成任务,还能通过环境感知保持对人类目标的情感共鸣。
拓展具身智能的形态: 世界模型为更广阔的具身智能形态,如纳米机器人、软体机器人,提供了基础的仿真数据与训练环境支撑。
3. 更长远的视野:科学、医疗与教育
从长远来看,世界模型将重塑计算建模和人类学习的方式。
科学研究: 世界模型能够模拟复杂的实验,并行检验多种假设,探索极端环境。这将重塑气候科学、材料研究、工程建模等领域的研究方式。
医疗领域:
* 通过多维建模加速药物发现。
* 辅助影像诊断中的复杂模式识别。
* 支持环境感知式监护系统,帮助患者与护理者。
* 提供强大的医护机器人支持。
教育领域:
* 实现沉浸式学习,让抽象的科学概念变得可感知、可体验。
* 创造迭代式学习体验,实现真正的个性化教学。
* 提供逼真的仿真环境,让专业人士(如外科医生)安全地练习复杂技能。
五、结语
驱动我们探索空间智能的,是对智能本身的惊奇与敬畏。在人类历史上,我们正处于一个前所未有的历史性时刻:我们首次有能力构建与物理世界深度契合的机器。
我们的终极愿景,是将空间智能用于造福全人类,提升人类生活最珍视的要素——判断力、创造力与共情力。
我坚信,如果没有空间智能,对“真正智能机器”的梦想就永远无法完整。世界模型将是把 AI 从语言的黑暗文匠,带向真实世界的下一盏明灯。



