当前位置：首页 > AI教程与实践 > 正文内容

从语言到世界：李飞飞定义空间智能，AI的下一个十年与“世界模型”

上善若水6个月前 (11-11)AI教程与实践

从语言到世界：空间智能是 AI 的下一个前沿

一、引言：AI 的现状与下一个前沿

人工智能（AI）的征程，始于艾伦·图灵那个振聋发聩的问题：“机器能思考吗？”

一个多世纪以来，我们沿着这条道路不断探索，从早期的符号逻辑到如今席卷全球的大型语言模型（LLM），AI 已经展现出惊人的语言驾驭能力。

然而，今天的 AI 仍然像是**“黑暗中的文匠”**。它们能言善辩，可以在文本世界中翻江倒海，却缺乏对物理现实世界的深刻理解。它们可以写出优美的诗歌，却无法稳稳地接住一个抛来的球；它们可以规划复杂的行程，却无法在拥挤的街道上安全穿行。

这种局限性表明，我们虽然取得了巨大的进步，但距离真正的智能仍有本质的距离。

我坚信，AI 的下一个前沿是：空间智能（Spatial Intelligence）。

空间智能将是连接语言与现实世界的桥梁，它将彻底改变我们创造虚拟世界、与物理世界交互的方式，重塑叙事、创意、机器人学乃至科学发现的未来。

长期以来，我对视觉与空间智能的研究从未止步，包括创立了被誉为“AI 诞生三大基石之一”的 ImageNet。

如今，我与团队创立了 World Labs，我们正专注于实现空间智能的愿景，因为它不仅是科学的挑战，更是通往真正通用智能的必经之路。

二、空间智能：人类认知的脚手架

尽管当前的前沿 AI 技术令人赞叹，但它们仍未真正实现我们对自主机器人、加速科学发现和深度赋能人类创造者的目标。要达成这些目标，AI 必须回归其认知的起点。

追溯智能的演化史，智能起源于感知与行动的循环。空间智能，正是定义人类与物理世界互动的基础。

空间智能的重要性（人类层面）

对于人类而言，空间智能是如此自然，以至于我们常常忽略它的存在，但它却是我们流畅性的关键：

日常行为： 无论是判断停车的精确距离、伸出手接住飞来的物件，还是在拥挤的人群中穿行，我们的大脑都能毫不费力地进行复杂的三维空间推理。

想象力与创造力： 讲故事、电影制作、建筑设计、乃至孩子堆的沙堡，都依赖于对空间、几何和物理规律的内化，它们构成了一切交互体验的核心。

文明进步的核心： 历史上无数次飞跃都依赖于卓越的空间推理。埃拉托色尼巧妙地利用日影计算出地球周长；哈格里夫斯通过观察倒下的纺纱机发明了珍妮纺纱机；沃森和克里克发现 DNA 双螺旋结构，无一不是空间思维的胜利。

人类认知的脚手架： 空间智能驱动我们的推理、规划与记忆，是我们与环境互动不可或缺的能力。

当前 AI 空间能力的局限

与人类的流畅性形成鲜明对比的是，当前 AI 在空间能力上仍存在巨大的技术差距。它们对距离、方向和大小的估算仅略高于随机，心智旋转（Mental Rotation）能力有限，无法有效地穿越复杂迷宫或预测简单的物理规律。

更根本的局限在于：当前 AI 对世界的理解缺乏整体性。它们的认知脱节于物理现实，这使得它们无法安全高效地完成具身（Embodied）任务，也无法创造真正沉浸式的体验。

空间智能，正是超越语言的前沿。它连接着想象、感知与行动，开启了机器真正赋能人类生活的无限可能。

三、AI 的下一个十年：构建具备空间智能的机器

我们的目标是打造能像埃拉托色尼那样推理、像工业设计师那样构造、像讲故事的人那样想象，并像应急救援人员那样互动的 AI。

实现这一目标，需要我们超越 LLM 体系，转向**“世界模型（World Model）”**。

世界模型是一种新型的生成式模型，其核心能力是在多重世界中进行理解、推理、生成与交互。

世界模型的核心框架（World Labs 的定义）

一个完整的世界模型，必须具备三个核心特征：

1 生成性 (Generative)： 模型必须能够生成在感知、几何与物理层面保持一致性的世界。它不仅要生成像照片一样逼真的图像，更要生成明确、可观测且与过去状态连贯的下一刻世界状态。

2 多模态性 (Multimodal)： 世界是多模态的，因此世界模型在设计上必须原生支持多模态。它应能处理图像、视频、文本、动作等多种输入，并能预测或生成完整的世界状态，而不仅仅是文本输出。

3 交互性 (Interactive)： 机器智能的终极目标是行动。世界模型必须能够根据输入的“动作”生成世界的下一个状态，并与语义、物理规律保持一致。它甚至能预测实现既定目标所需的下一步行动，是具身智能的驱动核心。

面临的艰巨挑战与研究方向

实现这一愿景并非易事，我们将面临巨大的挑战：

1 新的通用训练任务函数： 我们需要构建能精确反映几何与物理规律的目标函数及其表征方式，以代替传统的语言预测任务。

2 大规模训练数据： 挑战在于如何从海量的图像/视频（本质上是二维 RGB 信号）中提取深层的三维空间信息。这需要能充分利用视觉数据的创新架构。同时，高质量的合成数据和额外的模态（如深度、触觉）采集也至关重要。

3 新型模型架构与表征学习： 我们需要突破当前 MLLM（多模态大模型）和视频扩散模型的范式，探索具备真正三维/四维感知能力的分词、上下文和记忆机制，例如我们 World Labs 正在探索的 RTFM 模型。

尽管挑战重重，我们已经迈出了坚实的第一步。World Labs 首次展示了 Marble 平台——首个能够通过多模态输入，生成并维持一致性三维环境的世界模型。这证明了我们的路径是可行的。

四、利用世界模型，为人类创造更美好的世界

我们的研究发展始终秉持一个核心原则：AI 应增强而非取代人类能力，并且始终尊重人的自主性与尊严。空间智能，正是一个能够极大程度提升人类能力、造福全人类的技术。

从时间维度上看，其应用前景可以分为：短期（创作者工具）、中期（机器人学）、长远（科学应用）。

1. 创 造力：赋能故 事叙述与沉 浸式体验

空间智能将放大并加速人类的创作者潜能，拓展娱乐、教育、设计和建筑的边界。

新维度叙事体验： 创作者可以利用像 Marble 这样的平台，快速创建和迭代一个完全可探索、有物理规律的三维世界，实现艺术、模拟与游戏的无缝融合。

设计空间叙事： 建筑师、工业设计师可以在虚拟世界中快速可视化、漫步于尚未存在的空间，以前所未有的速度和保真度进行设计迭代。

全新沉浸式与交互式体验： 结合 VR/XR 设备，世界模型将使“造世界”的能力向每一位个人创作者开放，提供真正身临其境的交互体验。

2. 机器人：具身智能的实践

空间智能是实现具备真正空间感知能力的自主机器的核心目标。

扩展机器人的学习能力： 世界模型提供了一个高精度、高效率的仿真环境，它能有效缩小模拟与现实的差距，克服训练数据稀缺的问题，让机器人在虚拟环境中快速学习复杂的技能。

人类的伙伴与协作者： 具备空间智能的机器人可以在实验室、家庭等紧缺领域提供支持，不仅能完成任务，还能通过环境感知保持对人类目标的情感共鸣。

拓展具身智能的形态： 世界模型为更广阔的具身智能形态，如纳米机器人、软体机器人，提供了基础的仿真数据与训练环境支撑。

3. 更长远的视野：科学、医疗与教育

从长远来看，世界模型将重塑计算建模和人类学习的方式。

科学研究： 世界模型能够模拟复杂的实验，并行检验多种假设，探索极端环境。这将重塑气候科学、材料研究、工程建模等领域的研究方式。

医疗领域：
* 通过多维建模加速药物发现。
* 辅助影像诊断中的复杂模式识别。
* 支持环境感知式监护系统，帮助患者与护理者。
* 提供强大的医护机器人支持。

教育领域：
* 实现沉浸式学习，让抽象的科学概念变得可感知、可体验。
* 创造迭代式学习体验，实现真正的个性化教学。
* 提供逼真的仿真环境，让专业人士（如外科医生）安全地练习复杂技能。

五、结语

驱动我们探索空间智能的，是对智能本身的惊奇与敬畏。在人类历史上，我们正处于一个前所未有的历史性时刻：我们首次有能力构建与物理世界深度契合的机器。

我们的终极愿景，是将空间智能用于造福全人类，提升人类生活最珍视的要素——判断力、创造力与共情力。

我坚信，如果没有空间智能，对“真正智能机器”的梦想就永远无法完整。世界模型将是把 AI 从语言的黑暗文匠，带向真实世界的下一盏明灯。

返回列表

上一篇：我们“投喂”了GPT 5上万个“学术谜题”与“反常案例”，总结出10个“解谜式”引言构建指令

下一篇：Kimi Agent会员怎么砍到0.99元？卖惨、威胁、猫片！与AI斗智斗勇实录

“从语言到世界：李飞飞定义空间智能，AI的下一个十年与“世界模型”” 的相关文章

Claude Opus 4.5 国内使用教程：最新功能详解与Poe/API中转四大方法对比指南

灵芽AI博客