
2026年的今天,我们正漂浮在人工智能的“第三次浪潮之巅”。或者,用更时髦的话说,我们正集体泡在由大语言模型(LLM)熬制的热水里,水温不断升高,每个人都感觉自己快要被煮熟,并升华为AGI(通用人工智能)了。从OpenAI到谷歌,从Anthropic到国内的一众“百模大战”幸存者,几乎所有人都默认了一条金科玉律:大力出奇迹,用更多的参数、更多的数据、更强的算力去“暴力破解”AGI,似乎就是那条通往应许之地的唯一高速公路。
然而,就在这个节骨眼上,有人猛地一脚刹车,还试图掉头。
这个人就是李飞飞。
在最近的思科AI峰会上,她以一个全新的、自带10亿美金估值光环的身份——World Labs创始人——再次向业界投下了一枚思想上的“脏弹”。她的观点,简单、直接,甚至有点“政治不正确”:单纯的大语言模型,走不通AGI这条路。
这不啻于在“LLM唯一神教”的年度盛典上,有人冲上台高喊“神是虚假的”。一时间,科技媒体的头条炸了,风险投资人的咖啡洒了,无数正在吭哧吭哧烧显卡的工程师们,也迷茫地抬起了头。
本文的目的,不是要简单地复述李飞飞的观点,而是要把它放在解剖台上,用最锋利的思想手术刀,一层层剖开。我们要搞清楚,这位计算机视觉领域的泰斗,究竟看到了什么我们没看到的东西?她口中的“空间智能”(Spatial Intelligence)又是个什么灵丹妙药?当然,我们更要摆上对立面的观点,让“LLM神教”的护法们也来辩一辩,看看他们的信仰是否真的坚不可摧。
这不仅仅是一场技术路线的辩论。不,这远比那深刻。这关乎我们如何定义“智能”的本质,关乎人类的进化史,甚至关乎我们为AI设定的终极创世神话。
所以,系好安全带,我们要出发了。这趟旅程,将会非常颠簸,但绝对精彩。
01 李飞飞:
为什么说LLM是通往AGI的歧途?

李飞飞的观点,绝非一时兴起。它背后是一套完整且自洽的逻辑体系,根植于生物进化、认知科学和计算机科学的交叉领域。我们可以把她的核心论点拆解为LLM通往AGI之路可能的三个无法逾越的障碍。
1.1 LLM的感知缺失
李飞飞的第一个,也是最根本的论点是:当今的LLM,本质上是一个没有身体、没有感官的“数字幽灵”。它们被永远地囚禁在由0和1构成的、一维的文本符号空间里。
这听起来有点玄乎,我们来打个比方。
想象一个天才,他从出生起就被关在一个只有黑白文字书籍的房间里。他读遍了世界上所有的著作,从莎士比亚的戏剧到爱因斯坦的相对论,从烹饪大全到色彩理论。你问他什么是“红色”,他能引经据典,告诉你红色的波长、文化象征(在东方是喜庆,在西方是警示),甚至能为你写一首关于红色的、辞藻华丽的十四行诗。
但是,他真的“懂”红色吗?
不。他从未见过红色,他无法体验到看到落日时那种温暖、壮丽的感觉,也无法理解交通信号灯上红色所带来的那种本能的、需要立刻停止行动的警示感。他的所有知识,都是关于“红色”这个符号的知识,而不是对红色本身的真实体验。
李飞飞认为,今天的LLM就是这个黑白房间里的天才。它们可以处理海量的文本数据,学会了语言的语法、逻辑和上下文关系。但它们不知道什么是“饿”,因为它们没有胃;它们不知道什么是“烫”,因为它们没有神经末梢;它们甚至无法真正理解一个简单的三维物体,比如“椅子”,因为它们从未在一个真实的三维空间里与椅子互动过。一次采访中提到,当给AI看一段视频,问里面有几把椅子时,AI可能会答错,因为它看到的只是一堆像素,而不是一个可以坐的、有四个腿的、占据物理空间的实体。
这种感知能力的缺失,是致命的。
因为智能,尤其是通用智能,其根基恰恰是对物理世界的感知和互动。李飞飞不止一次地强调,语言,这个看似人类智能皇冠上的明珠,其实是生物进化史上一个相当晚近的产物。在她看来,在人类学会说话和写诗之前,我们的祖先已经在非洲大草原上通过视觉、听觉、触觉等感官,与这个复杂、动态、充满危险和机遇的三维世界打了数百万年的交道。
我们的智能,是在躲避猛兽、寻找食物、制造工具、进行物理协作的过程中,一点一滴“长”出来的。我们对世界的理解,是“具身的”(embodied),是深深嵌入在我们的物理体验中的。我们知道一个杯子会从桌上掉下去摔碎,不是因为我们读过牛顿定律,而是因为我们亲手打碎过杯子,我们的大脑中已经建立了一套关于重力、材质、碰撞的直观物理模型。
而LLM呢?它们的世界模型,完全是基于文本数据构建的。这是一个“二手”的世界,一个被语言过滤和抽象了无数次之后的世界。它们或许可以从文本中学到“杯子掉在地上会碎”这个事实性陈述,但它们缺乏那种对物理过程的直观、本能的预判能力。这就好比一个只看过F1赛车比赛转播的人,和一个真正的赛车手,他们对“过弯”的理解,完全不在一个维度上。
所以,李飞飞的结论是:一个连世界长什么样都不知道的智能,怎么可能被称为“通用”智能? 这种建立在流沙之上的智能,无论其语言能力多么惊人,也终究是空中楼阁。
1.2 空间智能才是智能的基石
基于第一个论点,李飞飞自然而然地引出了她的核心解决方案,也是她创办World Labs的理论基石——空间智能 (Spatial Intelligence)。
这个词听起来可能有点高大上,但其内核思想却异常朴素,甚至可以说是返璞归真。李飞飞认为,我们搞AI的方向,从一开始就有点“本末倒置”了。我们迷恋于人类最高阶的认知能力——语言和抽象推理,却忽略了支撑这一切的、更古老、更基础的智能形式。
什么是空间智能?
它指的是智能体理解和推理物理世界,并在其中进行互动的能力。这包括:
- 三维感知: 不再是把世界看作2D的像素矩阵,而是能理解物体的形状、大小、位置、姿态和它们之间的空间关系。
- 物理直觉: 建立起对世界运行规律的内隐模型(intuitive physics)。比如,知道物体有重量,液体会流动,刚体会碰撞,软体会形变。
- 具身互动: 能够通过一个“身体”(无论是物理机器人还是虚拟化身),去探索、操作和改变物理环境,并从互动中学习。
李飞飞的逻辑链条非常清晰:在地球生命长达数十亿年的进化史中,智能的演化是从与物理世界的互动开始的。一条鱼要知道如何在三维水体中导航,一只鸟要知道如何利用气流滑翔,一只猴子要知道如何判断树枝的承重能力……这些都是空间智能的体现。这种智能是跨物种的,是生命为了生存而发展出的最底层的操作系统。
相比之下,人类的语言能力,满打满算也就几十万年的历史。它更像是在这个强大的“空间智能”操作系统之上,安装的一个高级应用软件(App)。这个App非常强大,极大地促进了知识传承和社群协作,最终让人类脱颖而出。但我们不能把App的成功,误认为是操作系统的全部。
目前的LLM路线,恰恰犯了这个错误。 我们试图只通过逆向工程这个“语言App”,来复现整个智能系统,却完全忽略了那个更底层的操作系统。这就像你想造一辆法拉利,却只研究它的车载音响系统,而对发动机、底盘、变速箱一无所知。这可能吗?
李飞飞的答案是,不可能。
因此,她认为AI的下一步,不是继续在语言这个一维隧道里疯狂掘进,而是应该“向物理世界转向”,去弥补AI在感知和互动上的巨大短板。这才是通往AGI的康庄大道,尽管这条路可能更难走。她的新公司World Labs,其使命正是要构建这种“物理一致的世界模型”(physically consistent world models),试图为AI装上眼睛、耳朵和手,让它从那个黑白房间里走出来,去触摸、感受和理解这个真实、生动、丰富多彩的三维世界。
1.3 AGI的定义与科学的严谨性
李飞飞的第三个论点,更像是一种釜底抽薪式的拷问。她不仅质疑了实现AGI的路径,甚至对“AGI”这个概念本身都提出了怀疑。
她曾多次表示,“AGI更像是营销语言,而不是科学术语”。
这句话的分量很重。
在当前这个AI的“大航海时代”,AGI就像是那传说中遍地黄金的“新大陆”,是所有AI公司和研究者奋力前行的终极目标。它既是吸引顶尖人才的灯塔,也是从资本市场融资的“故事引擎”。OpenAI的使命开宗明义就是“确保通用人工智能惠及全人类”。
而李飞飞却站出来说,我们可能连这个目标的具体定义都没搞清楚。
她认为,作为一个严谨的科学领域,人工智能的目标应该是追求其本身,是不断地创造出能像人类一样思考和行事的机器。但“通用”这个词,边界在哪里?是能写诗、能编程、还能做手术?还是能理解所有人类情感、能进行哲学思辨、还能实现星际旅行?
这个定义是模糊的、浮动的,甚至带有几分神话色彩。当一个目标无法被清晰定义和量化衡量时,它就很容易沦为一种市场营销的口号。大家都在谈论AGI,但每个人心中的AGI可能都不一样。这种模糊性,一方面激发了人们的想象力,但另一方面也可能导致科研资源的错配和路线图的战略误判。
图灵奖得主、同为“反LLM万能论”阵营大将的杨立昆(Yann LeCun)也表达过类似观点,他甚至认为AGI这个概念本身可能没有意义。另一位图灵奖得主Geoffrey Hinton虽然对LLM的潜力更为乐观,但也承认我们离真正的AGI还很遥远。
李飞飞对AGI定义的审慎态度,实际上强化了她对LLM路线的批判。她的潜台词是:你们正在朝着一个自己都定义不清的目标狂奔,并且选择了一条看起来最快、但实际上可能通向悬崖的捷径。
这种批判,将辩论的层次从“如何实现AGI”提升到了“我们究竟在追求什么”。她呼吁业界回归科学的本源,少一些浮夸的叙事,多一些对智能本质问题的踏实研究。这种冷静和务实,与当前甚嚣尘上的AGI狂热形成了鲜明对比。
李飞飞的“反共识”观点,构成了一个三位一体的逻辑闭环:
-
本体论上,她指出LLM因缺乏感知而无法真正理解世界。 -
方法论上,她提出了以“空间智能”为核心、遵循生物进化规律的替代路线。 -
目标论上,她质疑了AGI这个终极目标本身的科学严谨性,呼吁回归本源。
这套组合拳,打得又准又狠,直接击中了当前主流AI范式的软肋。然而,历史的车轮滚滚向前,LLM的拥护者们,会这么轻易地缴械投降吗?
当然不会。一场伟大的“护教”运动,早已拉开帷幕。
02 “LLM派”:
为什么说语言是通往智能的捷径?

面对李飞飞和杨立昆(Yann LeCun)等“异端”的挑战,“LLM派”的信徒们自然不会坐以待毙。他们的反驳同样有力,并且有大量惊人的技术突破作为“神迹”来支撑。他们的核心思想可以概括为:你们低估了语言的力量,也低估了“规模”(Scale)的魔力。
2.1 “大力出奇迹”:规模定律(Scaling Law)
LLM阵营最核心的信仰,就是所谓的“规模定律”。
这个定律,由OpenAI等机构通过大量实验发现,其内容简单粗暴:只要你持续增加模型的参数量、数据量和计算量,模型的性能就会以一种可预测的方式持续提升,并且会“涌现”(emerge)出许多意想不到的新能力。
这就像是AI领域的“摩尔定律”,给了从业者一个清晰、简单、可执行的行动纲领:别想那么多,堆料就完事了!
在他们看来,李飞飞所谓的“感知缺失”问题,并不是一个本质问题,而是一个“数据量不够”的问题。
他们的逻辑是这样的:
人类的语言,并非与物理世界完全脱节。恰恰相反,语言是人类对物理世界、社会关系、内心思想的编码和压缩。互联网上数万亿的文本和代码,本质上是全人类知识和经验的总和。这里面包含了对物理世界的描述(“苹果从树上掉下来”)、对物理规律的总结(牛顿三定律的文本)、对社会规则的探讨(法律条文和哲学辩论),以及对人类情感的描摹(小说和诗歌)。
一个足够大的语言模型,在阅读了几乎所有人类能提供的文本后,难道不能从这些海量的“二手数据”中,反向构建出一个关于世界的、高度精确的统计模型吗?
LLM的拥护者认为,完全可以。
他们会反问:一个孩子学习物理,难道非要去亲手做每一个实验吗?他不是同样可以通过阅读教科书、听老师讲解来学习吗?教科书,就是对物理世界的高度抽象和符号化。如果LLM能读完人类所有的“教科书”,并且理解它们之间的关联,它构建的世界模型,在复杂度和精确度上,甚至可能超越任何单个人类。
所谓的“涌现能力”,就是支持这一观点的最强证据。早期的语言模型只会做些简单的文本生成,但随着模型规模的指数级增长,像GPT-4及其后续版本,开始在它们从未被专门训练过的领域展现出惊人的能力。它们能写代码,能解数学题,能进行简单的逻辑推理,甚至能通过各种专业资格考试。
这种现象让LLM信徒们坚信,智能的许多方面,包括常识和推理,并不需要一个“身体”去物理世界里碰撞学习,而是可以从语言数据这种高度浓缩的知识精华中“蒸馏”出来。
预测下一个词元(token),这件看似简单的任务,如果做到极致,可能真的包含了通往AGI的钥匙。因为要完美地预测下一个词,模型必须理解语法、事实、上下文、逻辑链条,甚至说话者的意图和情感。这本身就是在倒逼模型去学习一个关于世界的完整模型。
所以,在他们看来,李飞飞的“空间智能”路线,固然有其道理,但可能是一条费力不讨好的“弯路”。既然我们已经找到了通过语言这条信息高速公路直达智能核心的可能性,为什么还要回到那个需要一点点与物理世界互动的“石器时代”呢?
2.2 “万物皆可嵌入”:从LLM到LMM,多模态的融合之道
面对“LLM是瞎子和聋子”的指控,LLM阵营的第二个反击策略是:谁说我们只有语言了?我们正在给模型装上眼睛和耳朵。
这就是近年来发展迅猛的大型多模态模型(Large Multimodal Models, LMM)。
这个想法非常直观:既然纯文本数据有局限,那我们就把图像、视频、音频、甚至雷达信号、脑电波信号等所有模态的数据,都“喂”给模型不就行了?
技术上的核心是“嵌入”(Embedding)。通过巧妙设计的编码器,可以将不同模态的数据,统一映射到一个高维的、语义共通的向量空间里。在这个空间里,一张狗的照片、单词“dog”、狗的叫声,它们的数学表示是相近的。
一旦实现了这种跨模态的对齐,LLM强大的文本处理能力就可以自然地迁移到其他模态上。模型不仅能理解文本,还能“看懂”图片、“听懂”声音。
这在很大程度上直接回应了李飞飞的批评。
- 你说的感知缺失? 现在的LMM可以详细描述一张复杂的图片,可以理解视频里的动态过程,甚至可以根据一张草图生成网站代码。这难道不是一种形式的“视觉感知”吗?
- 你说的物理世界理解不足? 通过学习海量的现实世界视频,模型正在开始建立对基本物理规律的直观理解。例如,它能“知道”一个球被抛出后会呈抛物线运动,一个人跳起来后会落回地面。
在LLM拥护者看来,李飞飞所强调的“空间智能”,并不需要一个全新的、颠覆性的架构来从头构建。它完全可以作为一种新的“数据模态”,被纳入到现有的、以Transformer为核心的框架中。
未来的AGI,可能就是一个超级多模态模型。它的核心依然是一个强大的、基于语言逻辑的推理引擎,但这个引擎连接着各种各样的感知模块(视觉、听觉、触觉等)。它通过多模态数据学习世界模型,然后用语言作为核心的思考和规划工具。
这条路线的优势在于,它不是推倒重来,而是在现有LLM的巨大成功基础上的“迭代升级”。这在工程上更可行,在商业上也更容易获得持续的投入。OpenAI的GPT系列、谷歌的Gemini系列,都已经在这条路上了。它们不再是“Large Language Model”,而正在成为“Large Multimodal Model”,甚至是“Large World Model”——只不过,它们构建世界模型的方式,和李飞飞设想的“具身互动”方式有所不同,更多是依赖海量的、被动的多模态数据观察。
2.3 “智能体(Agent)的崛起”:从被动生成到主动行动
如果说多模态解决了模型的“输入”问题,那么“智能体”(Agent)的概念,则试图解决模型的“输出”和“互动”问题。
这是对李飞飞“具身互动”思想的另一种形式的回应。LLM阵营承认,一个只会被动回答问题的聊天机器人,离AGI还差得很远。真正的智能,需要能够设定目标、制定计划,并主动地与环境互动以达成目标。
于是,基于LLM的AI Agent概念应运而生。
其基本思路是,将一个强大的LLM作为智能体的“大脑”。这个“大脑”负责理解任务、进行推理和规划。然后,为这个“大脑”配备一套“工具箱”(Tools),以及在特定环境中行动的“手脚”。
- 在数字世界里,这些“工具”可以是调用计算器、搜索引擎、API接口、编写和执行代码的能力。一个Agent可以帮你预订机票、管理日程、分析财务报表,它不再是简单地生成文本,而是在数字空间中完成实际的任务。
- 在物理世界里,这些“手脚”就是机器人。LLM可以作为机器人的控制中枢,理解“把桌上的苹果拿给我”这样高级的自然语言指令,然后把它分解成一系列具体的机器人动作(定位桌子、识别苹果、规划机械臂路径、控制夹爪力度等)。
通过这种方式,LLM就不再是那个被关在房间里的哲学家了。它拥有了与世界(无论是数字世界还是物理世界)互动的能力。更重要的是,它可以从这种互动的结果中获得反馈,进行学习和调整。这就形成了一个完整的“感知-思考-行动-反馈”的智能闭环。
LLM的拥护者认为,这正是通往“具身智能”的一条更高效的路径。我们不需要为机器人从零开始设计一套复杂的控制系统。我们可以直接利用LLM已经具备的强大的语言理解、常识推理和规划能力,把它“嫁接”到机器人的身体上。语言,在这里成为了连接抽象思维和物理行动的终极桥梁。
“LLM派”的反击,同样是逻辑严密且富有说服力的:
-
规模定律是他们的核心信仰,认为量变终将引发质变,感知和推理能力可以从海量数据中“涌现”出来。 -
多模态技术是他们的有力武器,旨在通过融合图像、视频等数据,直接弥补LLM的感知短板。 -
智能体(Agent)是他们的行动纲领,致力于将LLM从被动的生成器,改造为能够主动与世界互动、完成任务的行动者。
他们承认当前LLM有局限,但他们认为这些局限都是可以通过“打补丁”和“迭代升级”来解决的,而无需像李飞飞那样,彻底转换赛道。
那么,当两套看似都无懈可击的逻辑体系迎面相撞时,真正的火花才刚刚开始。
03 思想的交锋:
两大路线的核心分歧与深层思辨

现在,我们把李飞飞代表的“空间智能派”(或者叫“物理世界派”、“具身派”)和主流的“LLM演进派”放在同一个擂台上。他们之间的争论,表面上看是技术路线之争,但深究下去,会触及到几个关于智能本质的、极其深刻的哲学问题。
核心分歧一:符号落地问题(Symbol Grounding Problem)——“苹果”究竟是什么?
这是双方争论的绝对核心。
“空间智能派”的观点(以李飞飞和杨立昆为代表):
他们认为,LLM处理的语言符号,是“悬浮”的、未曾“落地”的。模型知道“苹果”这个词经常和“红色”、“水果”、“甜”、“牛顿”等词一起出现,但它对一个真实苹果的物理属性——它的重量、手感、脆度、汁水四溅的感觉——一无所知。LLM建立的是一个符号与符号之间的关系网络,而不是符号与真实世界实体之间的对应关系。
杨立昆(Yann LeCun)就尖锐地指出,LLM缺乏对世界如何运作的因果模型。它们是出色的“模仿者”,但不是深刻的“理解者”。它们通过统计规律学会了“说什么”,但不知道自己“为什么这么说”。这种智能是脆弱的,很容易产生所谓的“幻觉”(Hallucination),一本正经地胡说八道,因为它缺乏来自物理世界的常识性约束。
李飞飞的“空间智能”,就是要解决这个“符号落地”的问题。通过让AI与物理世界互动,符号“苹果”就不再仅仅是一个文本标记,它会与视觉信息(一个红色的球状物体)、触觉信息(光滑的表面、一定的硬度)、交互经验(可以被拿起、可以被咬开)等一系列多感官信息牢牢地“绑定”在一起。只有这样,AI才算真正“理解”了苹果。
“LLM演进派”的观点:
他们则认为,“符号落地”可以通过一种间接的方式实现。
他们的论点是,海量的多模态数据本身就提供了丰富的“落地”信息。当模型同时看到一百万张苹果的图片,读到一百万句描述苹果的句子,听到一百万次咬苹果的声音时,它内部形成的关于“苹果”的表征,难道不已经包含了对这个物理实体的丰富理解吗?
这种“落地”不是通过亲身互动,而是通过海量观察。就像一个侦探,虽然没有亲临案发现场,但通过分析足够多的证据(照片、证词、报告),他同样可以在脑中构建出对案件的完整、准确的理解。
此外,他们认为,人类的许多高级知识,本身就是抽象和符号化的。我们学习量子力学,也不是靠亲手去操纵基本粒子。我们就是通过阅读公式、理解概念这些纯符号操作来学习的。如果LLM能掌握人类所有符号化的知识,它就已经拥有了巨大的智能基础。至于物理互动,那可以后续通过Agent的方式再“嫁接”上去。
深度思辨:
这场争论的本质是,“理解”是否必须以“体验”为前提?
“空间智能派”更倾向于认知科学中的“具身认知”理论,认为智能离不开身体和环境的互动。而“LLM演进派”则更接近一种“联结主义”和“统计学习”的观点,认为只要数据量足够大、模型结构足够好,复杂的语义理解能力可以自发地从数据关联中涌现出来。
这两种观点可能都不是绝对的。或许,智能存在不同的层次。对于具体的物理常识,具身体验可能是最高效的学习方式。但对于高度抽象的科学和哲学知识,基于符号的学习可能更为重要。未来的AGI,可能需要将两种“符号落地”的方式结合起来。
核心分歧二:创世神话之争——“自下而上”的进化 vs “自上而下”的工程
这是关于构建AGI的两种截然不同的“创世”哲学。
“空间智能派”的“创世神话”(进化论):
李飞飞的路线,本质上是在模仿生物进化的路径。
地球上的智能,是自下而上(Bottom-up)演化出来的。先有最基本的感知和运动能力(单细胞生物的趋利避害),然后发展出复杂的身体和与环境互动的能力(多细胞动物的捕食与规避),最后,在这个坚实的“身体”基础上,才演化出大脑皮层和高级认知功能,比如语言和抽象思维。
这个过程是缓慢、扎实、层层递进的。每一层高级能力,都建立在下一层坚实的基础之上。因此,他们认为构建AGI也应该遵循这个顺序:先让AI拥有一个“身体”(物理或虚拟的),学会感知和与三维世界互动,掌握“空间智能”这个底层操作系统。然后,再在这个基础上,去发展语言、推理等高级应用。
这条路看起来更慢、更难,但他们认为这是唯一稳固的道路。
“LLM演进派”的“创世神话”(工程论):
LLM的路线,则是一个典型的“自上而下”(Top-down)的工程学思路。
我们直接从人类智能最顶层的表现——语言——入手。因为语言是人类所有知识的结晶,是最高效的信息载体。我们试图先用一个超级大脑(LLM)把所有人类的知识都学会,让它先成为一个“无所不知”的智者。
然后,我们再回过头来,为这个“大脑”补上它所缺失的部分。缺视觉?就加上多模态。缺动手能力?就加上Agent框架和机器人身体。这就像是先造出了一个功能强大的CPU,然后再去给它配上摄像头、麦克风、机械臂等外设。
这条路的优势是见效快,而且可以充分利用现有的数据和算力优势。它跳过了生物进化中漫长而低效的“身体”演化阶段,试图直取智能的“大脑”核心。
深度思辨:
这两种“创世神话”哪个更靠谱?
“进化论”路线的优点是基础牢固,构建出的智能可能更具鲁棒性、更符合常识。但它面临巨大的挑战:如何获取海量的、高质量的机器人互动数据?如何设计能够自主学习的具身智能体?这些都是比训练LLM难得多的问题。
“工程论”路线的优点是进展神速,已经在许多领域展现了惊人的价值。但它的风险在于,这个“空中楼阁”式的智能,其根基是否牢固?会不会存在一些根本性的、无法通过“打补丁”来修复的缺陷?例如,它是否能真正发展出自主的目标和动机?还是永远只是一个更强大的“工具”?
这或许是未来十年AI领域最激动人心的实验。两条路线同时推进,最终可能会殊途同归,也可能会分道扬镳,走向两种完全不同形态的“智能”。
04 未来的预言:
两种路线的终局与可能的融合

站在2026年的今天,我们无法断言哪条路是绝对正确的。但我们可以基于现有的线索,对未来的发展做出一些有根据的推测。
“空间智能派”的未来图景:World Labs与“世界模型”的漫漫长路
李飞飞的World Labs,无疑是这条路线的旗手。他们要做的事情,难度极高。
他们需要构建的,不仅仅是一个能识别物体的模型,而是一个能模拟和预测物理世界动态变化的“世界模型”(World Model)。这个模型需要理解刚体动力学、流体力学、物体间的相互作用等。这需要全新的模型架构,可能不再是单纯的Transformer。
数据的获取将是最大的瓶颈。他们可能需要投入巨资建立大规模的机器人实验室,让成千上万的机器人在各种场景下进行7×24小时的探索和试错,来收集宝贵的互动数据。或者,他们需要构建出照片级的、物理引擎高度逼真的模拟器,让AI在虚拟世界里“摸爬滚打”亿万次。
这条路的商业化落地可能会比较慢。短期内,它可能首先应用于自动驾驶、机器人、工业自动化等对物理世界理解要求极高的领域。但一旦取得突破,其潜力将是颠覆性的。一个真正理解物理世界的AI,将能够设计新材料、发明新机器、甚至帮助我们解开宇宙的奥秘。
这注定是一条需要长期主义和巨大耐心的道路。
“LLM演进派”的未来图景:通往“超级智能体”的狂飙突进
这一派的未来则清晰得多,也更具“侵略性”。
短期(1-3年): LMM将成为标配。所有主流大模型都将具备强大的原生多模态理解和生成能力。基于LLM的AI Agent将在软件自动化、个人助理、游戏NPC等领域大放异彩。我们将看到更多更强的模型,在各种基准测试上持续刷新纪录。
中期(3-5年): “模型+机器人”的结合将更加紧密。随着模型规划能力的提升和机器人硬件成本的下降,通用机器人助手走出实验室,进入家庭和工厂,不再是遥不可及的梦想。LLM将成为这些机器人的“云端大脑”。
长期(5年以上): 他们梦想的终局,是一个无所不能的“超级智能体”。这个智能体以一个巨大的、统一的模型为核心,连接着全球的传感器和执行器。它能理解所有形式的数据,能调用所有数字和物理工具,能够以超越人类的速度学习、进化和创造。
这条路的风险在于“失控”。一个过于强大的、行动能力不受约束的智能体,可能会带来难以预测的社会和伦理问题。此外,“规模定律”是否会遇到瓶颈?是否在某个点之后,单纯地增加参数和数据,再也带不来智能的飞跃?这也是一个巨大的未知数。
一个可能的结局:两条道路的最终融合
历史告诉我们,极端的路线之争,其结果往往不是一方完全消灭另一方,而是双方的融合。
未来的AGI,很可能是一个混合体。
它可能拥有一个基于LLM演进路线发展而来的、强大的“语言与逻辑核心”。这个核心负责抽象推理、知识整合、长期规划和与人类的交流。它就像是智能系统的“左脑”。
同时,它又会深度集成一个通过“空间智能”路线发展而来的、强大的“物理世界模型”。这个模型负责处理实时的多感官数据,提供对物理世界的直观理解和精准预测。它就像是智能系统的“右脑”。
这两个系统不是简单地拼接,而是像人脑的两个半球一样,深度交织、协同工作。语言符号通过物理世界模型而“落地”,物理世界的经验通过语言核心而被抽象和升华。
在这种融合的图景下,李飞飞和LLM的拥护者们,其实并不矛盾。他们只是从一个硬币的两面,分别开始了自己的探索。一个从智能的“地基”向上盖,一个从智能的“屋顶”向下修。总有一天,他们会在中间相遇。
写在最后
回到我们最初的问题。李飞飞在思科AI峰会上的振臂一呼,究竟意味着什么?
在2026年这个时间点,它的最大意义,可能不是提供了一个绝对正确的“最终答案”,而是为整个狂热的AI领域,敲响了一声必要的“警钟”。
她的观点,迫使我们从对“规模”的盲目崇拜中暂时抽离出来,重新思考一些更基本的问题:
- 智能的本质到底是什么?
- 我们当前的路径,是否存在我们尚未察觉的根本性缺陷?
- 除了堆砌算力和数据,我们是否还有其他更深刻、更具启发性的研究方向?
李飞飞和她的World Labs,就像是主流叙事中的一个“反对派”。无论他们最终成功与否,他们的存在本身,就极具价值。它保持了AI研究领域的多样性,避免了所有人都挤在一条赛道上,最终可能导致的“思想内卷”和“范式固化”。
单纯的大语言模型或许真的无法通往AGI,但由大语言模型引发的这场关于AGI路径的大辩论,毫无疑问,将把我们带向一个更接近智能本质的未来。
李飞飞没有终结比赛,她只是让比赛变得更加精彩了。而我们,作为这个伟大时代的见证者,只需备好爆米花,静待下回分解。
– End –
转载请注明:好奇网 » 智能的基石是空间还是语言?一场关于AGI未来的“创世神话”之争