梦想从来不是遥不可及的星辰,而是脚下一步一个脚印的征程,跨越山海的跋涉,终会与星辰相遇。

万字追问:「语言」到「智慧」的一步之遥,究竟有多远?

科技大爆炸 爱 好奇 来源:追问nextquestion公众号 52浏览 0评论


人工智能的终极梦想,从来不局限于打造一个能击败国际象棋特级大师的博弈引擎,或是设计出花言巧语蛊惑人心的聊天机器人。它的真正使命,是成为一面映照人类智慧的明镜,帮助我们更深刻地认识自我。

科研工作者的目标,也不止于是狭义的人工智能,他们追求的是通用型人工智能(AGI)——一种具有类人的适应力与创造力的智能系统。

诚然,如今大语言模型(LLM)的问题解决能力已然让大多数研究者刮目相看,但它们依然有着明显的短板,例如缺乏持续学习的能力——一旦完成基于书籍、网络文本等材料的训练后,它们的知识库就被冻结了,再也无法“更新”。正如AI公司SingularityNET的本·格策尔(Ben Goertzel)形象地比喻:“你没法让大语言模型去上大学,甚至连幼儿园都进不了。”它们通过不了有“机器人高考”之名的综合测验。

01
“掌握”了语言,
离模拟思维还有多远?

在语言处理方面,目前的LLM确实展现出了专家所称的AGI“形式能力”:即使你提供的内容支离破碎或十分口语化,它们也能够对你提供的任何语句进行语法分析,并用堪比维基百科的标准英语回复你。但在其他认知维度上,LLM仍有明显局限——尤其是那些关乎日常生活实用性的能力。麻省理工学院(MIT)神经科学家南希·坎维舍(Nancy Kanwisher)认为:“我们不应该期待它们有能力思考,它们只是语言处理器。”这些系统巧妙地处理着词句,但除了已接收的文本,它们无法接触到现实世界。

▷南希·坎韦舍(Nancy Kanwisher),美国麻省理工学院大脑与认知科学系教授,麦戈文脑研究所研究员。她专注于研究大脑功能组织与视觉认知机制,发现了大脑中专门处理面孔、场景和身体的区域,如梭状回面孔区(FFA),为理解大脑功能区域化机制提供了重要线索。她还通过人工神经网络研究大脑功能特异性的计算原理,推动了认知神经科学的发展。坎韦舍教授因其卓越贡献,获得了2024年卡夫利神经科学奖、1999年美国国家科学院托兰研究奖,并于2005年当选美国国家科学院院士,2009年当选美国艺术与科学院院士。

某种程度上,LLM只是模仿了大脑的语言能力,而不具备感知、记忆、导航、社会判断等其他能力。就像坎维舍所提出的,如果我们的大脑是多功能的瑞士军刀,LLM就是一把非常不错的螺丝锥。关于大脑的诸多功能是定位于特定区域还是弥散在灰质之中,坎维舍与其他神经科学家还没有达成一致,大多数人认同大脑功能至少具有一定程度的特异性。AI开发者正致力于将这种模块性整合到他们的系统中,以提高其智能性。

生成式预训练自注意模型(generative pre-trained transformer,GPT)的创造者OpenAI,允许付费用户选择附加工具(起初称为“插件”),来处理数学运算、网络搜索等各类查询任务,每项工具都会调用其所属专业领域的外部知识库。其核心的语言系统,在某种意义上也可能是模块化的,但这对用户而言是不可见的,OpenAI一直对其规格保密。不少AI研究者推测,GPT拥有多达16个神经网络或“专家”(尽管我们不清楚它们如何分工),GPT会将它们的答案汇总以回复用户的查询。

在2023年12月,法国的Mistral和中国的Deepseek先后发布了“混合专家模型”(Mixture of Experts,MoE)的开源版本,引发了全球轰动。这种简单模块化形式的主要优势就是计算效率:训练并运行16个较小的网络要比1个单一的大网络容易得多。”鱼和熊掌应该兼得”,爱丁堡大学人工智能研究员埃多阿尔多·庞蒂(Edoardo Ponti)提出这样的构想,”我们要打造一个既具备海量参数规模,又能保持微型模型高效特性的智能系统。”

▷埃多阿尔多·庞蒂(Edoardo Ponti)爱丁堡大学自然语言处理助理教授,剑桥大学附属讲师,英伟达访问教授。他的研究聚焦于高效架构(如动态稀疏性)、模块化深度学习和计算语言类型学,致力于通过压缩模型中间表示和内存来重新定义基础模型的计算单元,并探索多语言的计算框架。庞蒂博士的研究成果获得了谷歌研究奖教金和EMNLP、RepL4NLP会议的最佳论文奖。他是SIGTYP的联合创始人,也是欧洲学习与智能系统实验室(ELLIS)的学者。

伴随模块化而来的是权衡,尚且无人能够确定各区域如何协调工作以创造出条理清晰的大脑,更不必说机器如何模拟这一点了。佐治亚理工学院的神经科学家安娜·伊万诺夫(Anna Ivanova)对此感到疑惑,“信息如何从语言系统传递至逻辑推理系统或社会推理系统?我们对此仍未可知。”

▷安娜·伊万诺夫(Anna Ivanova)佐治亚理工学院心理学系助理教授,语言、智能与思维实验室(LIT Lab)负责人。她致力于研究语言与人类认知之间的关系,通过神经影像学(如fMRI)、行为实验和计算建模等多学科方法,探索大脑如何处理语言信息以及语言模型如何模拟人类思维。她的研究揭示了大脑语言网络在非语言事件语义加工中的作用,并开发了用于评估语言模型世界知识的基准测试。伊万诺夫博士因其在认知神经科学领域的创新性研究,入选《麻省理工科技评论》2024年“35岁以下科技创新35人”榜单。

02
意识的潜在基础:全局工作空间

一个颇具煽动性的假设——意识是共同的基础,这个假设被称为“全局工作空间理论”(global workspace theory,GWT)。GWT认为,意识之于大脑,就相当于员工会议之于一个企业,它为各个模块提供了交换信息、寻求帮助的场所。GWT并非唯一的意识理论,但AI研究者对它颇具兴趣,因为GWT推测意识是高等智能不可或缺的一部分。大脑可以开启自动巡航模式(如默认神经网络)完成简单的或重复性的任务,但新颖或复杂的任务超出了单一功能模块的能力范畴,需要我们有意识地主动控制才可应对。

格策尔及其团队在他们的AI系统中嵌入了一个工作空间,他谈道,“我认为全局工作空间模型的核心思想必将以多种不同技术路线涌现。”在设计该模型的电子化表征时,研究人员没有试图去打造“有意识的机器”,而是重构特定意识理论的硬件架构,以探索实现类人智能的可能性。

他们有可能无心插柳地创造出一个具有情感和动机的有知觉的存在吗?这是可以想象的。尽管就连GWT的开创者、加州拉霍亚神经科学研究所的伯纳德·巴尔斯(Bernard Baars)也认为这是不可能的,“意识计算还只是一项缺乏证据的假设。”但是,如果开发者真的成功打造出AGI,他们能为理解智能本身的架构及过程提供重要的洞察。

▷伯纳德·巴尔斯(Bernard J. Baars)美国认知神经科学家,全局工作空间理论(GWT)的创立者。巴尔斯曾任纽约州立大学石溪分校心理学教授,是意识研究领域的先驱。他提出意识的全局工作空间理论,认为意识是一个有限的信息处理中心,能够整合来自大脑不同区域的信息,并通过注意力机制将信息广播到更广泛的神经网络。这一理论为理解意识的本质提供了重要框架,影响深远。他还联合创办了Consciousness and Cognition期刊和意识科学研究协会(ASSC)。他的著作《意识的认知理论》和《认知、脑与意识:认知神经科学导论》是该领域的经典教材,为推动认知神经科学的发展做出了重要贡献。

长期以来,GWT都是神经科学与AI研究相互启发的典型案例。这一思想可追溯至“Pandemonium”,即20世纪50年代计算机科学家奥利弗·塞尔弗里奇(Oliver Selfridge,1926-2008)提出的一种图像识别系统。塞尔弗里奇将各个系统模块描绘成《失乐园》中“地狱里竞相嘶吼、争夺注意力的恶魔”,而与他同时代的艾伦·纽厄尔(Allen Newell,1927-1992)则偏好更加克制的隐喻“数学家们围聚在黑板前共同解题”。20世纪80年代,巴尔斯提出了GWT作为人类意识的理论。“我的学术生涯从AI中受益良多,究其根源,这是当时我们拥有的唯一可用的理论平台。”巴尔斯如是说。

▷奥利弗·塞尔弗里奇(Oliver Selfridge)麻省理工学院(MIT)名誉教授,人工智能领域的先驱之一。塞尔弗里奇被誉为“机器感知之父”,是最早研究模式识别和人工智能的科学家之一。他在20世纪50年代开发了“潘多拉”(Pandora)系统,这是第一个能够识别手写字符的计算机程序,开创了机器视觉和模式识别的先河。他的工作为后续的人工智能研究奠定了基础,尤其是在图像识别和机器学习领域。塞尔弗里奇还提出了“恶魔”(Daemon)的概念,启发了现代操作系统中后台进程的设计。他因在人工智能领域的开创性贡献,获得了国际人工智能联合会(IJCAI)的卓越研究奖。

▷艾伦·纽厄尔(Allen Newell)美国计算机科学家和认知心理学家,卡内基梅隆大学教授。纽厄尔是人工智能和认知科学领域的先驱之一。他与赫伯特·西蒙(Herbert A. Simon)合作,开发了逻辑理论机(Logic Theorist)和通用问题求解器(General Problem Solver),这些早期程序奠定了人工智能的基础。他提出了“物理符号系统假说”,认为人类智能可以通过符号操作来实现,这一理论对认知科学和人工智能的发展产生了深远影响。纽厄尔因其在计算机科学和人工智能领域的开创性贡献,获得了1975年图灵奖。

在巴尔斯的启发下,孟菲斯大学的计算机科学家斯坦利·富兰克林(Stanley Franklin)尝试打造了一台“有意识”的计算机。无论富兰克林的机器是否真的有意识(巴尔斯和富兰克林对此半信半疑),它至少复现了人类心理的许多特点。例如,当它的注意力从一个事物转移到另一个事物时,它会错过信息,就和人类在多任务中糟糕的表现一样。

▷斯坦利·弗兰克林(Stanley Franklin,1931-2023)美国孟菲斯大学计算机科学系教授,认知架构领域的重要奠基人之一。弗兰克林博士是“意识循环”(Consciousness Loop)模型的提出者,该模型为理解人类意识的动态过程提供了开创性的理论框架。他还主导开发了开发了IDA及其后继者LIDA,这两种模型都是全局工作空间理论的计算实现。著有《人工心智》(Artificial Minds)等,其研究成果不仅推动了人工智能和认知科学的理论发展,还为相关技术的实际应用奠定了基础。他获得了多项荣誉,包括美国心理学会颁发的“杰出科学贡献奖”。

自20世纪90年代起,巴黎法兰西公学的神经科学家斯坦尼斯拉斯·迪昂(Stanislas Dehaene)与让·皮埃尔·尚热(Jean-Pierre Changeux)便着手探索可构建起全局工作空间的神经回路拓扑结构。

▷斯坦尼斯拉斯·迪昂(Stanislas Dehaene)法国认知神经科学家,法兰西公学教授,神经科学与认知研究所主任。迪昂是“数字感”理论的提出者,其著作《The Number Sense: How the Mind Creates Mathematics》(《数字感:人类的数学直觉》)深入探讨了人类大脑对数字的天生认知能力。他还著有《Reading in the Brain: The New Science of How We Read》(《阅读的脑:破解人类阅读之谜》),揭示了阅读能力的神经机制,指出大脑如何通过“神经元回收”机制适应阅读这一文化发明。他的研究推动了认知神经科学的发展,为教育实践提供了重要理论支持。

▷让-皮埃尔·尚热(Jean-Pierre Changeux)法国神经科学家、分子生物学家,法兰西科学院院士,法国国家科学研究中心(CNRS)荣誉研究主任。尚热是“大脑操作性学习理论”的提出者,他通过研究乙酰胆碱受体的结构与功能,揭示了神经递质在神经信号传递中的关键作用。他还提出了“先天认知结构”理论,认为大脑中存在先天的神经网络,能够通过学习和经验进行调整。尚热的理论为理解大脑的发育和认知功能提供了重要框架。他的研究不仅推动了神经科学的发展,还对认知科学和人工智能领域产生了深远影响。

在这个结构中,大脑各模块大多数情况下独立运作,但约每0.1秒它们会“举行一次员工会议”。这是一场有组织的信息竞赛。每个模块都会提供一些信息,信息的置信度越高(如刺激与预期模式的契合度越高),它们的神经活动就越强烈。一旦某个模块获胜,其他模块会进入短暂的抑制状态,赢家会将它的信息放置到一系列共同变量集之中,即全局工作空间。其他模块则必须自行评判信息是否有用。正如巴尔斯所言,“这本质上是拥有局部解决方案的子智能体之间既协作又竞争的涌现过程。”

工作空间不仅促进了模块间的信息交流,更为各模块提供了一个共同思考的“论坛”,即使这些信息最终不会传递到感官系统,也可以在这里接受“集体审议”。迪昂举了个例子,“你可能在现实生活中遇到过一些转瞬即逝的感觉,它会在你的工作空间里持续回响。”这种审议机制对于解决多步骤或长时程的问题尤为关键,人们必须有意识地思考才能解决这类问题——迪昂通过心理学实验证实了这一点。

如果这个系统听起来略显无政府主义,那就对了。它摒弃了由上级在模块间分配任务的形式,因为正确分配任务极其困难。任务分配(delegation)或者说在不同的执行单元间分配职责以实现最优性能,在数学中属于NP hard问题,需要花费大量时间才能解决。以被认为由OpenAI使用的MoE架构为例,一个“门控”网络负责分配任务,它必须和各个模块共同训练。期间,因为模块依赖路由进行分配,而路由又依赖模块,训练可能会陷入循环而崩溃,庞蒂将之描述为“鸡与蛋悖论”。即使训练成功了,路由机制本身也是一个黑箱,我们并不清楚其运作机制。

03
高度竞争而又协同的模块化系统

在2021年,卡内基梅隆大学的数学系荣休教授曼纽尔·布鲁姆(Manuel Blum)和勒诺·布鲁姆(Lenore Blum)系统阐述了全局工作空间中注意力竞争的机制。他们引入了置信度校准机制,以确保各个模块不会过分高估其输入信息的置信度,由此防止少数夸大其词者主导了整个系统。

▷曼纽尔·布鲁姆(Manuel Blum)美国计算机科学家,卡内基梅隆大学布鲁斯·尼尔森计算机科学教授,1995年图灵奖得主。他的研究奠定了计算复杂性理论的基础,并在密码学和程序检查领域做出了开创性贡献。他提出了Blum速度加快定理和Blum公理,还发明了Blum-Blum-Shub伪随机数生成器和Blum-Goldwasser密码系统。2000年,他与学生共同发明了CAPTCHA(验证码),用于区分人类和计算机程序。布鲁姆还培养了众多杰出的计算机科学家,包括多位图灵奖得主。他于2002年当选美国国家科学院院士,2006年当选美国国家工程院院士。

勒诺·布鲁姆(Lenore Blum)美国计算机科学家和数学家,卡内基梅隆大学荣誉教授,北京大学访问讲席教授。布鲁姆博士的研究领域包括实数计算理论、密码学和伪随机数生成。她与曼纽尔·布鲁姆和迈克尔·舒布(Michael Shub)合作,发展了基于连续实数的计算理论,为现代机器学习算法奠定了数学基础。她的著作《Complexity and Real Computation》(与Cucker、Shub和Smale合著)是该领域的经典。布鲁姆还致力于推动女性在STEM领域的参与,是女性数学协会的创始人之一,并在卡内基梅隆大学创立了多个支持女性的项目。她获得了2004年美国总统科学、数学和工程导师奖等多项荣誉。

布鲁姆夫妇还提出,模块之间可直接建立神经连接,完全绕开全局工作空间。这些旁路连接,可以解释人类学习骑自行车或弹奏乐器时的技能固化现象,一旦各模块通过集体协商确定了分工后,它们便可以脱离意识离线处理任务。“这种机制将依赖短时记忆的加工过程转化为无意识加工。”勒诺·布鲁姆解释道。

有意识的注意力是一种稀缺资源。全局工作空间承载信息的容量有限,所以胜出的模块必须严格筛选传递给其他模块的信息。这听起来像一种设计缺陷,“为什么大脑会限制你同一时间能思考的内容数?”蒙特利尔大学AI研究员约书亚·本吉奥(Yoshua Bengio)对此感到疑问。但他认为这一限制是有益的:它强化了认知纪律。我们无法追踪世界的全部复杂性,所以大脑不得不识别出背后的简单规律。“这种瓶颈迫使我们理解世界的运作规律。”本吉奥解释道。

▷约书亚·本吉奥(Yoshua Bengio)加拿大蒙特利尔大学计算机科学与运筹学系教授。本吉奥博士是蒙特利尔学习算法研究所(MILA)的创始人,长期致力于深度学习、神经网络和自然语言处理的研究。他提出了多项开创性理论和技术,如神经机器翻译(NMT)和生成对抗网络(GAN)的改进版本。他还推动了深度学习在医疗、气候科学等领域的应用。本吉奥与Hinton和杨立昆共同获得2018年图灵奖,表彰他们在深度学习领域的贡献。

对本吉奥来说,这正是GWT对于AI最重要的意义。当今的人工神经网络已能力过剩,它们拥有数十亿甚至数万亿参数,大到足以吞噬整个互联网的数据,但又很容易陷入技术细节之中,而难以从海量的数据库中提取出更深层的规律。如果人工神经网络的海量知识能够由一个狭窄的信息通道进行筛选(就像人类意识的运作模式),那么它们或许会表现得更好。

早在本吉奥开始系统性关注GWT之前,他就尝试将类意识的瓶颈机制整合进AI系统中。在21世纪10年代初期,受人类大脑选择性信息聚焦能力的启发,本吉奥团队在神经网络中构建了一个类似的筛选器。例如,当类似于GPT的语言模型遇到代词时,它需要找到代词的先行词。具体来说,模型会强化邻近的名词、弱化语料的其他部分。本质上,这种“注意”关键词的能力需要理解整个文本。值得注意的是,代词也有可能与形容词、动词等不同类别的词语关联,神经网络的不同部分可以同时对不同的词汇关联投入注意力。

然而,本吉奥发现这种注意力机制存在一个不易察觉的缺陷。假设神经网络完全忽略了一些词语,即将对应这些词语的计算变量赋零值,这种突变式的处理将严重干扰训练神经网络的标准流程。被称为“反向传播”的训练流程,针对网络的输出逆向溯源,可以找到导致错误的计算部分,却无法追踪这些突变节点。

▷ 软注意力机制流程图. 图源:Measurement Science and Technology

因此,本吉奥及其合作者开发了“软注意力机制”(soft-attention mechanism),神经网络仍具选择性但不绝对。该机制对不同选项(如与代词可能有关的词语)赋予数值型的权重,尽管一些词语的权重更高,但所有词语都仍有可能被激活(权重大于0)。神经网络会避免做出非此即彼的硬性选择。“80%赋予这个、20%给另一个,因为注意权重是连续的,我们可以继续使用反向传播。”本吉奥解释道。这项软注意力机制正是自注意力模型(Transformer,即GPT中的T)的核心创新。

近些年来,本吉奥对软注意力机制进行了迭代升级,创造了更加严格的瓶颈。他认为,神经网络想要实现接近真正的类人智能,这一步是极其重要的。真正的全局工作空间必须实施硬选择,它没有能力持续追踪所有选项。在2021年,本吉奥团队开发出生成流网络(generative flow network)。该网络会根据注意力权重得出的概率分布,周期性地选定一个可用选项。本吉奥不局限于反向传播,而是创新性地采用双向的方式训练神经网络。这种方法既可以逆向追溯修正突变节点引发的错误,也能进行常规的前向推理。本吉奥发现,该系统形成的对输入数据的高阶表征,与人类大脑的神经标准高度相似。

应用全局工作空间的另一大挑战在于超特异性(hyperspecialization)。就像不同院系的教授隔行如隔山,大脑的各个模块之间也存在交流壁垒。视觉区域演化出适合加工眼部输入信息的抽象表征,听觉模块则形成了适用于耳蜗振动的表征。那么,不同模块如何交流呢?这就需要某种通用语言(lingua franca),或者是被亚里士多德称作“通感”的东西。这种需求也存在于科技公司推出的“多模态”网络场景中,多模态网络需要能够将文本与图像及其他形式的数据相结合。

在迪昂和尚热的GWT框架中,模块之间由自适应的突触神经元连接。“这些神经元将输入转化成它们自己的编码方式,”迪昂解释道。但具体的机制还不清晰。事实上,迪昂希望AI研究者能通过解决人工神经网络中的类似问题为人类研究提供洞察。“全局工作空间目前更多是一项思想观点,还未形成完善理论。我们正在努力把它理论化,但还有很多模糊的地方。不过,工程师们已经具备了将GWT变为实用系统的出色潜力。”迪昂谈道。

04
潜空间对齐

2021年,日本东京的AI公司Araya创始人、神经科学家金井良太(Ryota Kanai)与法国图卢兹大学跨界进入AI领域的神经科学家鲁芬·范鲁伦(Rufin VanRullen),基于GWT提出了一种人工神经网络完成翻译任务的新方法。

▷金井良太(Ryota Kanai)日本认知神经科学家,人工智能企业家,ARAYA公司创始人兼CEO。他专注于将意识理论应用于人工智能,尝试将全球工作空间理论(GWT)和整合信息理论(IIT)融入深度学习架构,以赋予AI元认知与注意力能力。他还研究大模型的表征与人类脑活动的对应关系,探索AI产生主观体验的可能性。作为人工意识领域的先行者,他的工作为未来具备类意识特征的AI系统提供了重要的理论和实践基础。

▷鲁芬·范鲁伦(Rufin VanRullen)法国国家科学研究中心(CNRS)研究主任,图卢兹大脑与认知研究中心(CerCo)研究员,图卢兹人工智能与自然智能研究所(ANITI)研究主席。范鲁伦博士的研究聚焦于大脑的神经振荡机制及其在认知中的作用。他提出视觉感知具有周期性而非连续性,这一观点改变了人们对感知过程的理解。他还致力于将认知神经科学的发现应用于人工智能,探索如何通过神经振荡机制改进深度学习算法。范鲁伦获得了2007年CNRS铜奖和2022年欧洲研究委员会高级研究资助等多项荣誉。

他们的灵感来源于谷歌翻译等语言翻译系统。现代神经网络翻译系统,被认为是AI领域迄今为止最令人瞩目的成就之一。系统在运作时无需被告知如英语中的“love”与法语中的“amour”是同一个意思,它们会独立学习每种语言,最终凭借对语言的掌握推断出法语中哪个词与英语中的“love”含义相同。

假设你分别用英语和法语训练了两个神经网络,每个网络会收集对应语言的结构,并形成被称为“潜空间”的内部表征。本质上,它是一个词云:通过将含义相似的词语相邻排列、无关词语彼此远离,构建出反映该语言中所有词语关联关系的图谱。这种词云有独特的形状。由于两种语言最终都指向同一个客观世界,因此尽管存在语言差异,它们的词云形状本质上会是相同的。你所需要做的是旋转英语和法语的词云直到它们对齐,就会发现“love”与“amour”匹配。

“无需借助词典,只需观察每种语言潜空间中所有词语的分布形态,找到正确的旋转角度,你就能对齐所有的词语。”金井良太解释道。这种方法既能用于单个词语,也能处理整段文本,因而有能力捕捉到语义的细微差别,并解决目标语言中无直接对应词汇的翻译难题。该技术的改良版本甚至能对英语和汉语这类不具亲缘关系的语言进行互译。或许,未来还可拓展至动物交流领域。

更进一步,范鲁伦和金井良太提出,这种翻译方法不仅仅能用于语言互译,还可应用于不同模态信息之间的转译。“通过独立训练一个图像处理系统和语言处理系统,再对潜空间进行对齐,你就能将二者结合,构建出多模态翻译系统。”金井良太谈道。这种多模态翻译之所以可行,是因为不同系统本质上都在描述同一个世界。这一观点,作为AI研究为大脑研究赋能的潜在案例,正好与迪昂的观点不谋而合。金井良太表示,“神经科学家从未设想过通过潜空间对齐这一可能性。”

为了验证这些理论的实际应用,金井良太和高级意识研究所的亚瑟·朱利亚尼(Arthur Juliani)与Araya公司的笹井俊太郎(Shuntaro Sasai)合作,三人的研究对象指向了谷歌DeepMind在2021年发布的感知器模型(Perceiver model),该模型的设计理念是将文本、图像、音频等多模态数据融合至统一的潜空间。2022年,谷歌将感知器模型整合至自动生成YouTube短视频描述的系统中。Araya团队开展了系列实验解析感知器模型的运作机制,发现该模型虽然并非特意为全局工作空间而设计,但它表现出其核心特征:独立的模块、模块筛选机制以及工作记忆(即工作空间本身)。

05
重新思考生成式模型

Meta公司首席人工智能科学家杨立昆(Yann LeCun),提出了一个可能带来突破性进展的观点。尽管他没有直接引用GWT作为灵感来源,但他在挑战当下生成式模型的霸权过程中,通过独立研究得出了许多相同的结论。杨立昆直言不讳地表示:“我反对当前AI和机器学习社区一些极为流行的东西,我呼吁大家放弃生成式模型。”

▷杨立昆(Yann LeCun)美国纽约大学教授,Meta首席人工智能科学家,深度学习领域的先驱之一。卷积神经网络(CNN)的主要发明者,这一架构在图像识别和计算机视觉领域取得了巨大成功。他的研究成果推动了人工智能技术的广泛应用,尤其是在图像处理、自动驾驶和医疗影像等领域。杨立昆还致力于推动人工智能的开源和共享,促进了该领域的发展。他与Hinton和Bengio共同获得2018年图灵奖,表彰他们在深度学习领域的开创性贡献。

生成式神经网络因能根据学习数据生成新文本和图像而得名。为实现该能力,这类网络需要极其重视细节:它们必须精确地知道句子中每个单词的拼写规则、图像中每个像素的布局方式。然而,智能的本质恰恰在于对细节的选择性忽视。因此,杨立昆呼吁学界回归早已不再时髦的“判别式”神经网络。

以图像识别领域常用的模型为例,这类网络的核心能力在于识别输入数据之间的差异(例如区分猫和狗的图片),它们并不会生成图像,而是通过对现有图像的处理分析完成分类标注。杨立昆开发了一种特殊的训练方案,使判别式网络能够提取文本、图像以及其它数据的本质特征。虽然判别式网络不能自动补全语句,但它能创建出抽象表征,这也是杨立昆期望与人脑中的认知模式能够相提并论的。

举个例子,当你输入一段汽车行驶的视频时,系统表征应该能捕捉到车辆的品牌、型号、颜色、位置以及速度等核心信息,忽略沥青路面的崎岖不平、水洼中的涟漪、路边植物的反光等细节。正如杨立昆所说:“所有无关紧要的细节都会被过滤掉。”毕竟,除非我们主动观察,大脑也会忽视掉不重要的信息。

这种精简的表征本身无法应用,但它为实现通用人工智能所需的多种认知功能奠定了基础。杨立昆将判别式网络嵌入更大的系统之中,使其成为类脑架构的组成模块之一。这种类脑架构包含GWT的核心特征,如短期记忆和协调各模块运作的“配置器”(configurator)。“深受心理学的一些基础原理启发,该系统在进行规划时,就像人脑能够进行思维实验预测不同情境下的情感反应,配置器会多次运行判别式网络,遍历一系列假设性行动,最终筛选出能够达成预期目标的最优路径。

杨立昆提出了一个自称为“通俗理论”(folk theory)的观点——意识可能源于配置器的运作,即巴尔斯GWT中的工作空间。

06
AI能否拥有意识?

如果研究者成功在AI系统中建造出了全局工作空间,这会让AI产生意识吗?迪昂认为“会”,前提是系统具备自我监控能力。

而巴尔斯却感到怀疑,部分原因在于他认为自己的理论还不具备百分之百的说服力。他坦言,“我总在怀疑GWT是不是真的足够好。”对巴尔斯来说,意识是人作为生命体特有的生物功能。

富兰克林也曾在采访中表达过类似的疑惑。他认为,全局工作空间是人类演化为应对生存需求提出的解决方案。通过意识,大脑得以从经验中学习,并快速解决复杂的生存难题。富兰克林认为这些能力与AI要面对的问题无关,他向我解释说:“必须存在具有真实心智与可控结构的自主智能体,这种智能体需要某种形式的‘生命历程’。它们可以是机器人,但必须经历某种发展过程,而不是以成熟姿态降临人间。”

▷阿尼尔·赛斯(Anil Seth)萨塞克斯大学教授,萨克勒意识科学中心主任。他专注于研究意识的神经基础,提出了意识是一种“受控幻觉”的理论。

英国萨塞克斯大学神经科学家阿尼尔·赛斯(Anil Seth)对富兰克林的话深表认同:“意识不只是智慧程度的问题,也是关乎生命的。无论AI如何聪明,只要它们不具备生命属性,就难以产生真正的意识。”

赛斯本人并不是GWT的拥护者,他更支持预测加工理论。该理论认为,意识体通过构建预测模型来预测未来事件,以此做好应对准备。“理解意识自我需要从研究身体控制的预测模型开始。”赛斯还研究过整合信息理论(integrated information theory,IIT),该理论将意识与大脑复杂的网络结构而非功能相连。根据该理论,意识不是智能的本质,而是生物效率的产物。

当下,AI是一个思想百花齐放的领域,即使抛开神经科学,工程师也有大量能够探索的内容。哥伦比亚大学神经科学家尼古拉斯·克里格斯科特(Nikolaus Kriegeskorte)评价道,其他理论固然不错,但人脑作为通用智能的象征,仍然是AI研究者目前所能参照的最佳模型。“人脑还藏有一些秘密武器,而工程技术还未攻克。”

过去数十年对AGI的探索,让我们对人类智能的本质有了更深刻的认识。现在,我们已经意识到,对人类来说轻而易举的任务(如视觉识别)计算起来要多么复杂,而人类感到头疼的难题(如数学和国际象棋)对于计算机又是多么简单。我们也意识到,大脑不需要太多与生俱来的知识,通过后天经验就能学会几乎所需要了解的一切。

模块化的重要性,也再次印证了古老智慧:智慧并非单一维度的存在,而是一个包含抽象思维、社会情景理解、视听感知等多元能力的工具箱。正如格策尔所言,正是这种多元能力的组合创新,我们的大脑才得以在未知领域开疆拓土。无论是创造全新的音乐流派,还是破解科学上的前人未解之谜。当我们向未知迈进时,终有一日AI伙伴也将与我们并肩同行。

原文链接:https://www.scientificamerican.com/article/what-the-quest-to-build-a-truly-intelligent-machine-is-teaching-us/

转载请注明:好奇网 » 万字追问:「语言」到「智慧」的一步之遥,究竟有多远?

发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址