当前位置:首页 > AI教程与实践 > 正文内容

从语言到世界:李飞飞定义空间智能,AI的下一个十年与“世界模型”

上善若水3个月前 (11-11)AI教程与实践

从语言到世界:空间智能是 AI 的下一个前沿

一、引言:AI 的现状与下一个前沿

人工智能(AI)的征程,始于艾伦·图灵那个振聋发聩的问题:“机器能思考吗?”

一个多世纪以来,我们沿着这条道路不断探索,从早期的符号逻辑到如今席卷全球的大型语言模型(LLM),AI 已经展现出惊人的语言驾驭能力。

图片

然而,今天的 AI 仍然像是**“黑暗中的文匠”**。它们能言善辩,可以在文本世界中翻江倒海,却缺乏对物理现实世界的深刻理解。它们可以写出优美的诗歌,却无法稳稳地接住一个抛来的球;它们可以规划复杂的行程,却无法在拥挤的街道上安全穿行。

这种局限性表明,我们虽然取得了巨大的进步,但距离真正的智能仍有本质的距离。

我坚信,AI 的下一个前沿是:空间智能(Spatial Intelligence)

空间智能将是连接语言与现实世界的桥梁,它将彻底改变我们创造虚拟世界、与物理世界交互的方式,重塑叙事、创意、机器人学乃至科学发现的未来。

长期以来,我对视觉与空间智能的研究从未止步,包括创立了被誉为“AI 诞生三大基石之一”的 ImageNet。

如今,我与团队创立了 World Labs,我们正专注于实现空间智能的愿景,因为它不仅是科学的挑战,更是通往真正通用智能的必经之路。

二、空间智能:人类认知的脚手架

尽管当前的前沿 AI 技术令人赞叹,但它们仍未真正实现我们对自主机器人、加速科学发现和深度赋能人类创造者的目标。要达成这些目标,AI 必须回归其认知的起点。

追溯智能的演化史,智能起源于感知与行动的循环。空间智能,正是定义人类与物理世界互动的基础。

空间智能的重要性(人类层面)

对于人类而言,空间智能是如此自然,以至于我们常常忽略它的存在,但它却是我们流畅性的关键:

日常行为: 无论是判断停车的精确距离、伸出手接住飞来的物件,还是在拥挤的人群中穿行,我们的大脑都能毫不费力地进行复杂的三维空间推理。

想象力与创造力: 讲故事、电影制作、建筑设计、乃至孩子堆的沙堡,都依赖于对空间、几何和物理规律的内化,它们构成了一切交互体验的核心。

文明进步的核心: 历史上无数次飞跃都依赖于卓越的空间推理。埃拉托色尼巧妙地利用日影计算出地球周长;哈格里夫斯通过观察倒下的纺纱机发明了珍妮纺纱机;沃森和克里克发现 DNA 双螺旋结构,无一不是空间思维的胜利。

人类认知的脚手架: 空间智能驱动我们的推理、规划与记忆,是我们与环境互动不可或缺的能力。

当前 AI 空间能力的局限

与人类的流畅性形成鲜明对比的是,当前 AI 在空间能力上仍存在巨大的技术差距。它们对距离、方向和大小的估算仅略高于随机,心智旋转(Mental Rotation)能力有限,无法有效地穿越复杂迷宫或预测简单的物理规律。

更根本的局限在于:当前 AI 对世界的理解缺乏整体性。它们的认知脱节于物理现实,这使得它们无法安全高效地完成具身(Embodied)任务,也无法创造真正沉浸式的体验。

空间智能,正是超越语言的前沿。它连接着想象、感知与行动,开启了机器真正赋能人类生活的无限可能。

图片

三、AI 的下一个十年:构建具备空间智能的机器

我们的目标是打造能像埃拉托色尼那样推理、像工业设计师那样构造、像讲故事的人那样想象,并像应急救援人员那样互动的 AI。

实现这一目标,需要我们超越 LLM 体系,转向**“世界模型(World Model)”**。

世界模型是一种新型的生成式模型,其核心能力是在多重世界中进行理解、推理、生成与交互。

世界模型的核心框架(World Labs 的定义)

一个完整的世界模型,必须具备三个核心特征:

1   生成性 (Generative): 模型必须能够生成在感知、几何与物理层面保持一致性的世界。它不仅要生成像照片一样逼真的图像,更要生成明确、可观测且与过去状态连贯的下一刻世界状态。

2   多模态性 (Multimodal): 世界是多模态的,因此世界模型在设计上必须原生支持多模态。它应能处理图像、视频、文本、动作等多种输入,并能预测或生成完整的世界状态,而不仅仅是文本输出。

3   交互性 (Interactive): 机器智能的终极目标是行动。世界模型必须能够根据输入的“动作”生成世界的下一个状态,并与语义、物理规律保持一致。它甚至能预测实现既定目标所需的下一步行动,是具身智能的驱动核心。

面临的艰巨挑战与研究方向

实现这一愿景并非易事,我们将面临巨大的挑战:

1   新的通用训练任务函数: 我们需要构建能精确反映几何与物理规律的目标函数及其表征方式,以代替传统的语言预测任务。

2   大规模训练数据: 挑战在于如何从海量的图像/视频(本质上是二维 RGB 信号)中提取深层的三维空间信息。这需要能充分利用视觉数据的创新架构。同时,高质量的合成数据和额外的模态(如深度、触觉)采集也至关重要。

3   新型模型架构与表征学习: 我们需要突破当前 MLLM(多模态大模型)和视频扩散模型的范式,探索具备真正三维/四维感知能力的分词、上下文和记忆机制,例如我们 World Labs 正在探索的 RTFM 模型。

尽管挑战重重,我们已经迈出了坚实的第一步。World Labs 首次展示了 Marble 平台——首个能够通过多模态输入,生成并维持一致性三维环境的世界模型。这证明了我们的路径是可行的。

四、利用世界模型,为人类创造更美好的世界

我们的研究发展始终秉持一个核心原则:AI 应增强而非取代人类能力,并且始终尊重人的自主性与尊严。空间智能,正是一个能够极大程度提升人类能力、造福全人类的技术。

从时间维度上看,其应用前景可以分为:短期(创作者工具)、中期(机器人学)、长远科学应用)。

1. 创造力:赋能故事叙述与沉浸式体验

空间智能将放大并加速人类的创作者潜能,拓展娱乐、教育、设计和建筑的边界。

新维度叙事体验: 创作者可以利用像 Marble 这样的平台,快速创建和迭代一个完全可探索、有物理规律的三维世界,实现艺术、模拟与游戏的无缝融合。

设计空间叙事: 建筑师、工业设计师可以在虚拟世界中快速可视化、漫步于尚未存在的空间,以前所未有的速度和保真度进行设计迭代。

全新沉浸式与交互式体验: 结合 VR/XR 设备,世界模型将使“造世界”的能力向每一位个人创作者开放,提供真正身临其境的交互体验。

2. 机器人:具身智能的实践

空间智能是实现具备真正空间感知能力的自主机器的核心目标。

扩展机器人的学习能力: 世界模型提供了一个高精度、高效率的仿真环境,它能有效缩小模拟与现实的差距,克服训练数据稀缺的问题,让机器人在虚拟环境中快速学习复杂的技能。

人类的伙伴与协作者: 具备空间智能的机器人可以在实验室、家庭等紧缺领域提供支持,不仅能完成任务,还能通过环境感知保持对人类目标的情感共鸣。

拓展具身智能的形态: 世界模型为更广阔的具身智能形态,如纳米机器人、软体机器人,提供了基础的仿真数据与训练环境支撑。

3. 更长远的视野:科学、医疗与教育

从长远来看,世界模型将重塑计算建模和人类学习的方式。

科学研究: 世界模型能够模拟复杂的实验,并行检验多种假设,探索极端环境。这将重塑气候科学、材料研究、工程建模等领域的研究方式。

医疗领域:
    * 通过多维建模加速药物发现
    * 辅助影像诊断中的复杂模式识别。
    * 支持环境感知式监护系统,帮助患者与护理者。
    * 提供强大的医护机器人支持。

教育领域:
    * 实现沉浸式学习,让抽象的科学概念变得可感知、可体验。
    * 创造迭代式学习体验,实现真正的个性化教学
    * 提供逼真的仿真环境,让专业人士(如外科医生)安全地练习复杂技能。

五、结语

驱动我们探索空间智能的,是对智能本身的惊奇与敬畏。在人类历史上,我们正处于一个前所未有的历史性时刻:我们首次有能力构建与物理世界深度契合的机器。

我们的终极愿景,是将空间智能用于造福全人类,提升人类生活最珍视的要素——判断力、创造力与共情力

我坚信,如果没有空间智能,对“真正智能机器”的梦想就永远无法完整。世界模型将是把 AI 从语言的黑暗文匠,带向真实世界的下一盏明灯。


“从语言到世界:李飞飞定义空间智能,AI的下一个十年与“世界模型”” 的相关文章

ChatGPT 5,颠覆性“博士级”能力详解!无需魔法,国内直接使用

ChatGPT 5,颠覆性“博士级”能力详解!无需魔法,国内直接使用

 一、引言:万众期待的“最强”模型登场1.1 发布事件确认:AI 新纪元的序幕——GPT-5 正式亮相在全球科技界屏息以待的目光中,OpenAI 携其新一代旗舰级基础模型 GPT-5 震撼登...

 3万亿美元豪赌下的冷思考:LLM泡沫将破?开源与PARK技术栈才是破局关键

3万亿美元豪赌下的冷思考:LLM泡沫将破?开源与PARK技术栈才是破局关键

 最近在硅谷和国内的 AI 圈子里,大家都在聊一个很尖锐的话题:我们是不是正处于一个巨大的泡沫之中?Linux 基金会的 Jim Zemlin 最近抛出了一个耐人寻味的判断,给狂热的行业泼了...

Gemini 优化投稿实操指南:从精准选刊到专业Rebuttal撰写

Gemini 优化投稿实操指南:从精准选刊到专业Rebuttal撰写

 如何利用 Gemini 优化投稿流程?从精准选刊到去情绪化 Rebuttal 的全实操指南利用 Gemini 作为“学术秘书”不仅能显著提升论文写作效率,更能在 投稿 (Submissio...

用Gemini 3 Pro给论文做预审:一套四步SOP流程,有效避免直接拒稿

用Gemini 3 Pro给论文做预审:一套四步SOP流程,有效避免直接拒稿

 Gemini 预评审 SOP 是一套利用 Google 最新 Gemini 3 Pro 超长上下文窗口(Ultra-Long Context Window)优势的学术写作优化流程。它不旨在...