所有漂泊的人生都梦想着平静、童年、杜鹃花,正如所有平静的人生都幻想伏特加、乐队和醉生梦死。

专访上海交大讲席教授徐雷:人工智能走了20年弯路之后

信息大爆炸 爱 好奇 来源:腾讯研究院公众号 119浏览 0评论


访谈主持人
王强 腾讯研究院前沿科技研究中心主任
徐一平 腾讯研究院高级研究员


以生成式AI为代表的新技术浪潮日新月异,正带来一场深刻的技术、商业与社会变革,推动人类社会从信息社会向智能社会转变。全世界热切期待AI到来的同时,也非常关心人工智能将带来哪些新机遇、新挑战。

为此,我们发起了一项《AI&Society 百人百问》研讨,广泛邀请AI技术大咖、AI独角兽创始人、AI投资人,以及社会学家、心理学家、国际关系专家、科幻作家等,用多元视角,深入研讨人工智能技术引发的广泛影响,发掘AI时代的共识和非共识,共同推动人工智能始终朝着“助人发展,与人为善”的方向可持续发展。

本期,我们非常荣幸地邀请到徐雷老师,为我们开启一次AI的思想远航。

访谈时间为2025年1月14日

上海交通大学致远讲席教授、人工智能研究院首席科学家、上海市人工智能战略咨询专家委员会荣誉委员。香港中文大学Emeritus Professor。09年获颁西安电子科大名誉教授。IEEE Fellow(01)、IAPR Fellow(02)、欧洲科学院院士(03)。获数个国内外主要奖项,如93年国家自然科学奖, 95年国际神经网络学会Leadership奖、06年亚太神经网络学会最高奖-杰出成就奖(首位获奖华人)。做AI研究40余年,发表论文四百多篇,含92-95年间NeurIPS上论文4篇(其中1992年的那篇标志着中国的学术单位首次打入这个AI最顶级会议),有RHT、组合分类器、RPCL、LMSER、ICA、EM算法、BYY学习理论等多个被广为引用的先驱成果。94 年起先后在国际神经网络学术界中担任权威期刊编委和学会领军人物,是最早的几位华人之一。

精华要点:

1.人工智能初诞后逆着自然演化方向走了20年弯路:

中国与西方开始时都是用象形文字,大概在5000年以前,古埃及文字开始向符号文字转变,这种演化促进了抽象思维,它把很多形象一一抽象为概念,变成一个个符号,变成一串发音,形成了语言串,有利于数学与逻辑的发展,出现了数理逻辑与形式语言,出现了当代计算机,开启了机器替代人类思维。1956年人工智能初诞,逆着这自然演化方向,走以抽象思维为主的符号AI之路,跳过了形象思维阶段,结果是沙地起高楼,基础不牢而走进了死胡同。85年前后神经网络研究兴起,标志AI发展回到了形象思维轨道,而深度学习高潮,尤其是刷脸识别和其它应用,确认AI走上正轨,有了近20年的大发展。

2.中西方语言文字的演化导致了不同的思维特点:

中华文化很大程度上体现了形象思维,人工智能初诞时,体现形象思维的模式识别不被认为属于AI,第一个做的是美籍华人C.K.Chow, 1980年前后,模式识别发展到第一个高潮,头号旗手是美籍华人K.S.Fu傅京孙教授。这期间模式识别与符号AI同时进入我国,并没有明显分家。不仅有钱学森先生非常有远见地指出形象思维在智能中很重要,而且在傅先生支持下,在清华常迵先生和北大程民德先生的领导下,模式识别在我国是系统化发展的,有关智能的博士,我国学科设置始于81年在清华,为一级学科自动化下的二级学科模式识别与智能控制。还有,以清华北大中科院为核心的金三角,对推动我国相关学科发展,尤其是高校和科研所相关人才的培养打下了基础,这大致解释了,为什么深度学习高潮再起时,全球参与的华人数量最高,尤其我国在刷脸识别很快领先,尽管微软北京研究院有引领作用,那大量人才哪里来,来自80年起我国这方面人才培养的基础。

3.AlphaGo与ChatGPT成功的核心皆是形象与抽象思维的结合:

对于AlphaGo,体现抽象思维的树搜索过程中,每步抉择时需要估算相应代价或价值,即对赢面的估值,深度学习让神经网络看到棋盘做形象思维,也推断价值还有落子策略,它们被结合到体现抽象思维的树搜索过程中,大大提高了搜索效率。换言之,需要在大脑中苦想的抽象思维,借以“看见了”的形象思维,而显著提高了抽象思维的效率。ChatGPT4和o1中,则是用RLHF让人打分评价回答为训练样本,或者用CoT思维链也即人做抽象思维的成功推理路径做为训练样本,转化推理问题蕴含于学习,其实是让人去帮助机器做了推理这种抽象思维属性的事,实现了两种思维互补结合。

4.要区分推断和推理:

最基本的智能是记忆,看到东西或形象,能记下来,能回忆出,记得多了就自然涉及对它们识别与分类,辨识相同相似与差异不同,分门别类地对待。然后呢,常见的功能有二,一是回忆或重建,或更一般地叫生成,二是类推或推断。形象思维的计算特征就是一看到、一想到、一输入,马上或很快就输出一个结果,是一个快过程,这叫推断,英文是inference。国内把这个译成了推理,推理的英文是reasoning,造成了混淆。推理通常要有很多步,每步要面对许多不同的可能选择,一步步地找出一条正确或最好条理或路径,也可能是多条路径(术语上说还可能形成子树或图)。推理是典型的抽象思维,要考虑的可能性组合太多,通常很慢,甚至许多问题是所谓组合爆炸,考虑不过来,推理不出来。

5.不应该简单地谈Scaling Law:

现在讲的所谓瓶颈,就是不断地加 GPU,也看不到大模型有什么大的发展了。也有人觉得要否定这条路,我觉得是有点太武断了,虽然大模型确实在消耗很多资源。搞人工智能,当然需要足够规模的硬件算力,90年前后神经网络研究高潮期间,缺的就是这种硬件规模,没有那么大的天地给你玩,就没有成功走出来。不过,这种硬件规模只是个必要条件,并不等于可与半导体摩尔定律之对数线性增长相提并论,认为规模越大,效能性能就越好。硬件规模不够,一定做不了或做不好;而规模大了也不一定就做得好,因为已有算力规模的潜力可能没有发挥出来。要释放潜力可考虑三个视角,一是探索智能或思维的本质特性,二是在训练数据上下功夫,三是考虑合适系统结构或框架。

6.DeepSeek成功原因之一是使用并发展了MoE结构:

这个MoE或早期也简记为ME,又称混合专家模型。就是并行地考虑多个模组或模块,学习过程中让每个各有专精,称为expert专家,再由一个类似专家组长角色的模型,调配组合各专家,形成一个mixture混合模型。在大模型中MoE,实质上在深度学习的同时,又在宽度上分而治之协同实现的一种宽度与深度并济的学习,可简称为宽深学习。MoE源于Jacobs,Jordan,Nowlan,& Hinton的1991年论文。1991年夏在IJCNN上我的一篇论文叫Associative Switch,与MoE的结构基本类似。92年我到MIT加入Jordan团队,就是对MoE做深入工作,与Jordan共发4篇论文、其中一篇Hinton也是作者。离开MIT回香港后,仍是我的团队的研究方向之一,进一步做了不少拓展和应用。

7.人其实也会像大模型一样出现幻觉:

有时人一闭眼睛,会想到或看到一个虚象。比如做一个梦,觉得它好像也是有逻辑的,因为它按照你脑子里已有知识或模型在处理生成信息。比如ChaGPT可以把唐朝李世民和宋朝赵匡胤搅在一起,但它输出的语言串符合语法。实际上,这种生成有对的、不对的,也有假的,而ChatGPT把它输出出来了。一般来讲,人在清醒时,生成的虚象可能被大脑中某种判断检查机制给抑制或屏蔽掉了,没有输出或者设法让你‘看’不见,但有时、尤其在梦里也会感知到形象。若是人平常清醒时,也经常看到就麻烦了,成天地看到就是见到鬼了,可能就是大脑出了毛病,所以有人把这类东西叫虚象、幻象、或幻影。

8.很难判断大模型输出的‘幻觉’也可能是一个好创新:

关键是怎么判断检查出来。通常是靠已知的事实、逻辑或规律。还有是否真的能在现实世界里发生,梦里像真的,但一醒来就马上知道是假的。如果对它啥也不知道,那就难了,要靠后来在空间或时间上积累的认同证据。对于人脑,有些神奇的创新,极少数人能做出,也只有极少数人能看出它好,靠的是公认的更高级大脑的认可。例如数学领域的菲尔兹奖,有之前菲奖得主认可就行,一般人都搞不懂没关系,其实一般人也不太可能懂。对于大模型,这样的更高级大脑的哪里来,关键是怎么才叫公认的?

全文实录

AI&Society百人百问:人工智能行业这两年非常热,有很多共识,也有很多非共识,您觉得现在技术发展遇到瓶颈了吗?有哪些是可能突破的方向?比如深度推理的慢思考?或者在框架上会有一些创新吗?

徐雷:这个问题很大,给我多点时间,讲得清楚些,后头你再有什么问题都好答了。

回答这个问题,要从两个角度看。一个是从人工智能的历史与发展角度,再一个是从人工智能本身涉及的逻辑或哲学角度。

为了理解人工智能发展,先大致看一下人的智能演化。最早是记忆,看到图像,看到现实中东西能记得住。记得越来越多了以后呢,自然就会产生把它们分类,就是要区别对待。然后呢,相似的东西要比对,再往前一点就是类推。早期的智能就这样发展了,而发展到一定程度,东西太多了,类别太多了,就要归纳成一些抽象的概念,到了抽象的这个空间里,就形成了所谓的推理,就要去解决问题。人类智能大致就是这样走过来的。

怎么样检验脑中记的对不对呢?看是否记住一个东西,就看能否回忆出它,例如经常一下子就认出这个人了,更为深刻些,看能否描述所记东西的特征,甚至重建它的图像,其实这就是生成。你脑中生成了一个虚像,看它是不是你所记的,这就是生成式的记忆识别。回忆、生成、识别、推断、类推、类比这类行为,构成所谓的形象思维。

智能的发展与语言文字的演化有很大关系,中华文化的文字,就很大程度上体现了形象思维,基于我们文字上发展的人类智能中形象思维的比重很大。西方文字发展走了另一条路,大概在5000年以前,不知何因,古埃及的象形文字转变成了符号文字,符号文字的不断演化,促进了抽象思维,它把很多形象一一抽象为概念,变成一个个符号,变成一串发音形成了语言串。这种把看到的现实中的东西都变成了符号,语言就是符号串,易于形式化与抽象推理,高度的抽象逐渐形成了数学语言,可以认为是人类抽象思维发展的第一个高峰。

数学语言就是符号串语言的一个子集或子语言,本质上都是符号串,这样语言、逻辑、数学就后来走到一起,出现了数理逻辑与形式语言,出现了现代计算机,是人类抽象思维发展的第二个高峰,也是借助机器再继续发展人类抽象思维的开端,所以你不能说现在计算机做的就不是智能,它做能够形式化、程序化了的抽象思维。但是,这种智能发展受限,做不到完全机器自动化,原因是基础不牢和能力有限。后面来解释这两点。

计算机出现不久,就来到1956年人工智能的诞生。早期将人类智能大致分为两种形式,一种是聪明的大脑(数学家、战略家、哲学家、大侦探)所做的事,大都属于抽象思维,称为高级智能或智能的高级阶段。另一种是每个人的大脑日常都要干的事,也就是前面讲的记忆、识别、回忆、生成、推断、类推、类比等形象思维活动,有人认为是低级智能或者智能的低级阶段。聪明人都喜欢挑战,以精英学校为主的那些精英们,谁会愿意挑战低级的呢?加上符号语言刚在计算机上的成功背景,人工智能一开始,自然地就走入了符号人工智能方向。

不过,人工智能要面对的是人类所在的现实世界,怎么能够将现实世界里的东西,智能地转化到符号人工智能所针对的符号串呢?那时的计算机做不了的,也没有广泛深入的探索。到了70年代末80年代初的知识工程与专家系统,这类工作主要是人工完成的,作为知识表示的很多规则也都靠人去。于是,以抽象思维为主要特征的符号人工智能走到死胡同。为什么?因为是空中楼阁,或者沙地起高楼,基础不牢,它把形象思维这一个阶段跳过去了。这就是为什么之前的AI热潮又落下去的原因。

很有意思的是,受过中国文化熏陶的学者,则不会低估形象思维的地位。特别值得提到的是钱学森先生,也是交大的老校友了,他在75到80年期间搞思维科学,当时就非常有远见地指出形象思维在智能中很重要,而当时AI界主流都在搞符号AI。事实上,符号人工智能诞生后不到两年,注重形象思维的探索也开始了。美籍华人Chow, C. K,在57年发表的论文中首先用统计决策理论的办法,去识别文字符号,标志模式识别的开始。他早年去台湾前就读上海大同大学,它的电机、机械专业后来并入了上海交大,尽管考证他学的专业有些困难,大概率地讲他也是交大校友。60年代末70年代初,模式识别也起来了,当时又有另外一个美籍华人叫傅京孙(Fu King-Shun)是领袖,创立了国际模式识别学会和现在大家知晓的模式识别顶刊IEEE Tr PMAI,可以说是当今刷脸行业的祖师爷。

1980年前后,模式识别与符号AI同时进入我国,并没有明显分家。在傅先生支持下,在清华常迵先生和北大程民德先生的领导下,模式识别在我国的发展更为系统化,我国的学科设置,有关智能的博士点,始于81年在清华,为一级学科自动化下的二级学科的模式识别与智能控制。我就是在常先生和阎平凡教授的共同指导下,于1986年底完成做博士论文,是我国这个专业的第一个毕业的博士。在我国出现计算机一级学科与人工智能相关的专业,要到九十年代以后。特别值得一提的是,以清华北大中科院为核心的所谓信息科学金三角,对推动我国相关学科发展,尤其是高校和科研院所相关人才的培养打下了基础,这解释了,为什么深度学习高潮再起时,全球参与的华人最多,尤其我国在刷脸识别很快领先,尽管微软的北京研究院有引领作用,那大量人才哪里来,来自80年起我国这方面人才培养的基础。还有,当时中国科学院没有信息学部,只有技术科学部的信息学组,常先生和程先生分别担任正副组长,在他们的领导下发展成为现在的信息学部。

从50年代末起,也有西方学者一开始从形象思维入手的,尽管不是主流。这里特别提到两位,一是Frank Rosenblatt,1958年也考虑识别英文字符,不过有的是只有一个神经元的Perceptron感知机学习。后来还用多层神经网络开发了MARK I感知机,他就是神经网络学习的鼻祖。遗憾的是,1969年符号AI的超级大咖Marvin Minsky明斯基和Seymour Papert写了《Perceptrons》一书,批判了这条路线,导致了神经网络研究的停滞,也就是有人所称人工智能的第一次潮落,这种说法不对,当时符号AI正红火,是神经网络研究或形象思维探索的第一次潮落。不过,感知机学习却被纳人模式识别研究为经典,直到1985年作为神经网络研究再次涨潮的一个重要出发点。

另一位西方学者是P.V.C Hough,1959年提出Hough transform(HT),简称HT变换,1962年批准为美国专利,旨在让计算机识别图像中的直线,后来发展到识别圆与各种形状,引起了后来广泛而持续的研究,HT变换可以说是今天计算机视觉的开端。还有,Hough用它来识别bubble chamber照片中高能粒子的运动轨迹,也可以说是开了今天AI for Sciences的先例。1990年前后,作为第一作者我在芬兰与E.Oja合作,提出了Randomized Hough transform(RHT),对HT在机制和性能上皆有突破性发展, 相当于HT2.0而引起了广泛的追随、应用、和发展。

第二次形象思维的潮起,也是当今人工智能持续高潮20年的源头,是80年代初到90年代初的神经网络研究高潮。前面提过,最基本的智能就是记忆。记忆不像计算机找到代码地址,然后把它调出来,那不叫记忆,那叫调用。记忆是什么呢?就是我看一眼你的形象,哪怕只看到一半或一部分,脑子里就把你的整个形象调出来了,这叫基于内容的记忆,或者叫联想记忆。早在60年代就有人做,但是做的效果不够好。1982年约翰·J·霍普菲尔德(John J. Hopfield)利用物理学中的自旋相互作用原理,通过能量函数描述神经网络的状态空间,能够通过不断反转神经元的状态实现能量最小化,从而达成稳定储存的“记忆”‌。它的联想记忆虽然记得不多,但用片段的记忆可以联想回忆出稳定的记忆,是早期神经网络研究的第一个突破。

1985年前后,戴维·朗姆哈特(David Rumelhart)等人在UCSD搞了一个PDP Research Group,出来一批成果,聚集了推动神经网络研究再次潮起多个核心人物,有今天人人皆知的Hinton和Jordan,那时候Hinton为访问助理教授,Jordan是Rumelhart的博士生。PDP Group 出了一批成果,最著名的是1986年发表于Nature的反向传播学习算法,作者为Rumelhart 、Hinton,与Ronald Williams。可以说是突破性地发展了前面所提Rosenblatt的多层Perceptron学习,标志着多层神经网络学习也即当今深度学习的开端。这个突破与Hopfield的突破,以及PDP Group的推动,合起来导致了80年代末神经网络的高潮。

1991年夏在西雅图开的IJCNN即国际神经网络大会上,我有两篇论文发表(其中一篇与MoE有关,后面会谈到),有个机会与Rumelhart、Hinton围坐于一个小圆桌喝咖啡短叙,那时Rumelhart高大帅酷,很遗憾地,他后来得了阿兹海默症于2011年离去了,当今认知科学的最高奖以他名字命名,被认为是认知科学领域的诺奖,也可以说他是当今人工智能持续高潮的最重要的源头之一。92年我到他的学生、MIT的Michael Jordan团队再做博士后,目睹Jordan与Hinton一起做为两个最重要的核心人物,引领NIPS或改称NeurIPS会议,发展为当今人工智能的最高顶会。后来,神经网络研究逐渐走向第二次潮落,Jordan又重新以原先符号人工智能残余的机器学习(machine learning)小组为基础,推动机器学习十余年来的大发展。

促进这轮人工智能持续20年高潮的再兴起,有三个最主要的引擎,一个是Jordan推动机器学习的大发展,奠定了再兴起的基础,另一个是Hinton团队2006年的工作,指明了前路。90年代初前后,已经提出了很多模型。受制于当时数据、算力之有限,实验规模不能做的很大,你有你的模型和学习算法,我有我的模型和学习算法,都不知道好坏,不晓得突破的出路在哪里。Hinton又回去做多层神经网络学习,和他的两个学生发现,层数增加了以后,效果好了很多,层数多了就是网络更深了,所以就把神经网络学习改了个词,叫深度学习,深了就等于参数多了,也就是大模型的开始。第三个是算力经过二、三十年的发展而大大提高,九十年代初要算一年的工作,缩减到只算几天或几小时。实际上,我于1991年也提出过一个多层神经网络学习模型,将基于能量理论的全连接的Hopfield网改变为层状Hopfield网,简称LMSER学习,与十多年后Hinton团队在2006年提出的RBM学习,不仅模型结构一样,学习算法上也基本类似。只不过当年算力太弱。现在只要算几小时的实验,按当时我在MIT用的算力,可能一年都算不出来。没有实验反馈信息,形不成一个思考的轮回,无法知道效果好坏。

有了这些引擎,深度学习成功了、大火爆了,这标志一个新的开始,意味着从1956年到2006年,人工智能走过弯路,又回到了形象思维,走上了正确轨道。大火爆后的第二个接力是什么呢?其实就是 AlphaGo,下围棋是过去符号人工智能也是抽象思维的经典问题,还是不可能解决的天花板,因为其计算复杂性是指数爆炸的。但是AlphaGo就解决了,而且超过人。为什么呢。我们很多人以为,是因为有蒙特卡罗树搜索,其实不是,这种树搜索起到一些作用,但没讲到核心。

基于抽象思维的AI棋类对弈的问题求解过程,也是树搜索过程,搜索中每一步面临若干分支,需要多择一,某个分支是否被选取决于针对该分支估计得到的一个评估值,反映进入该分支后能够最终实现目标的机会或信度,这个值在经典AI中称为heuristics启发值h,而在AlphaGo或通常的强化学习中叫value价值v。两者的含义类似,这里就用v。每个分支的v值在树搜索过程中不断地动态修正估值,估值的好坏决定搜索效率的好坏,在经典AI中用的启发估值的树搜索,除了一些极为特殊的场景,这种树搜索过程仍然是指数爆炸的,所谓蒙特卡罗树搜索也是这类树搜索的一种,仅仅靠它不会带来核心的改变。

是什么带来核心改变的呢?是深度学习让神经网络看到棋盘做形象思维,不仅也对价值v做估计,还估计所谓策略,即当前棋盘状态下为了获胜,各分支中每个被选择的概率p,这里得到的v和p被结合到体现抽象思维的树搜索过程中,大大提高了搜索效率。用一句俗话说,就是开了天眼,该怎么做有效现在看到了,正是因为过去一下子看不到,才要去预想推理很多步。换言之,需要在大脑中苦想的抽象思维,可以借助“看见了”的形象思维,而显著简化。AlphaGo中就这样用形象思维的加入,打开了抽象思维的瓶颈,这个可以认为是深度学习或大模型学习的第二个里程碑。

反过来,也可以把抽象思维引入以形象思维为主的过程,以提高可靠性与准确性,更高的做法是两种思维互补和谐地用,这稍后再谈。

先来看第三个里程碑,也就是过去二、三年内大热的ChatGPT与生成学习。不同于ChatGPT之生成文本,关于图像的生成学习比ChatGPT早的多,基于深度学习的图像生成探索,十余年前就开始了,典型的例子是所谓对抗学习GAN。最早出现的生成学习雏型是1987年出现的autoencoder自编码学习,前面提到过的我在1991年提出的LMSER学习与Hinton团队在2006年使用的RBM学习,也都是深度双向生成学习。近年来的图像生成学习,主要基于微分方程的扩散模型,而LMSER模型层间双向互逆的逐层串联,其实是当今称之为确定性扩散模型的一个早期例子。不过,90年代初的算力与数据太弱,无力对LMSER学习进行多层的计算模拟实验,只是计算验证了,底层的学习可发展出,诺奖得主Wiesel & Hubel特征检测理论所描述底层特征检测器。尽管如此,文(Xu,1991)中也就LMSER之潜在功能做了一些预见与猜测,包括多层特征检测器、联想记忆、概念形成、唤起注意、虚象浮现与图像生成,这些近几年已由计算模拟实验证实。

ChatGPT生成的是自然语言文本,通过大模型突破性地解决了人工智能中长期以来进展缓慢的自然语言理解问题。对人工智能发展有两个重要贡献,一个是证明了大模型这条路走得通。人类大脑有海量神经元,就是一个大模型。这点大家都知道。几年前,大概2000年前后,已经是各种各样的人都进来做AI了,都在找下一个突破点在哪里呢。不难会想,在自然语言理解上AI进展缓慢,是不是因为模型不够大。但是搞大模型要大算力大数据,要花很多钱、很多时间,很多企业做不起。但算力发展的客观现实是已经大大提高了做大模型的可能,只是要花费巨大的代价来做,做得起的企业因风险太大不愿真正进入。这就需要信念来引领,Open AI 相信这样做能走出来,结果就走出来了。当时我们也有八大人工智能国家平台,那些企业的力量应该足够的,也有足够的数据,可能不愿意坚信朝这条路走。Open AI坚信,它第一个走通了。看到有人走通了,纷纷涌上,于是国内一下子出现了数百大模型,但是遗憾地错过了先机。

这种现象有点像2006年,Hinton团队首先展示神经网络学习走深这条路走得通,从Rosenblatt起,谁都不怀疑神经网络有很多层,但70年代初Minsky能够枪毙这条路,就是因为算力不能够支持,1986年backpropagation学习出现,也是因为当时算力可以提供一定的支撑了,结果出现了90年前后神经网络研究的高潮,也出现了一些新的多层网络模型,前面提到我91年提出的LMSER就是一个例子。但当时的算力与数据还是太有限,不能支撑进行深入研究。到了2006年前后,算力与数据有了大发展可以支撑了,Hinton回到多层神经网络告诉大家还是要走深的这条路,是可以走通的,于是大家纷纷涌上,深度学习大火了。不同这次,那一轮因为刷脸符合我国的各种需求,国内许多企业一下子上来了,我国在这方面走到了AI发展的前列。

ChatGPT的另一个重要贡献是引入了一个新东西,就是Reinforce Learning Human Feedback (RLHF),它就是让人去打分,让人理解那个回答的token词段对不对,这跟上下文有关,要正确理解判断,就涉及到推理,涉及到跟AlphaGo类似的搜索过程。可能Open AI团队并没有清楚地意识到这点。但RLHF巧妙的让人打分,其实人帮助机器做了推理这种抽象思维属性的事,用它去细调模型。等于机器做不好的抽象思维让人做了,加上它前面的预训练学习,其实也是一个形象思维和抽象思维结合的例子。有的人介绍ChatGPT成功在于预训练的模型与RLHF得到细调模型能够对齐,这种所谓对齐的提法其实是具体做法之现象,本质是两种思维互补结合,这种互补结合不一定非要通过这种对齐来实现,可能不要预训练的模型,或不要RLHF打分,若能实现两种思维某种互补,可能得到类似的效果。

概括而言,人工智能发展先是走了一段“高级”的符号人工智能,一开始就注重抽象思维,犹如空中楼阁,或者沙地起高楼,它把形象思维这一个阶段跳过去了,于是走进死胡同了。80年代神经网络高潮的兴起,让注重形象思维的道路取代了符号AI成为发展的主流,2006年起深度学习高潮再起,尤其是刷脸的实际成功应用,标志做形象思维之路走通了,也证实了人脑神经网络启示的,模型要多层或要深的路是走得通的。其后的AlphaGo、 ChatGPT与生成学习表明人工智能发展终于走上了形象思维与抽象思维的互补结合的正确道路,不断地成功发展,也进一步证实了人脑神经网络的启示,模型规模要足够的大,才能满足解决自然语言理解这类复杂智能问题的需要。

有了前面从人工智能历史与发展角度的回顾,就为下面回答你的各种问题提供了背景和准备。先从‘深度推理的慢思考’问题开始,再回答‘遇到瓶颈了吗?’然后说一下‘可能突破的方向?’与‘在框架上会有一些创新吗?’

“深度推理的慢思考”的回答

形象思维的计算特征就是一看到、一想到、一输入,马上或很快就出来一个结果,是一个快过程,这叫推断,英文是inference。十多年来国内把这个过程译成了推理,这就造成了混淆混乱。推理通常要有很多步每步要面对许多不同的可能选择,要按理一步步地找出一条正确的或最好的条理或路径,也可能是多条这样的路径(术语上说还可能形成一个子树或图)。推理在英文里常用reasoning一词。推理是抽象思维,其过程因为要考虑的可能性组合太多,通常很慢,甚至许多问题是所谓组合爆炸,考虑不过来,推理不出来。

现在的人都不太愿意读历史而整出新词,什么快计算与慢计算,或快模型与慢思考。这种快慢的提法,一则看的只是一个表征,二则割断了历史。这里的快慢结合,想说的就是形象思维和抽象思维的互补结合。前面说了,AlphaGo和ChatGPT其实已经这样做了,只是有些人没有意识到而已。那么推理(或更一般地抽象思维)当然得加回来,不能因为符号人工智能撞了墙了就不用做了,其实它没有死,又活了现在。现在的人应该回去看看,过去的成果可以捡回来,或者得到启发。两种思维互补结合的路线是会走很长一段时间的,由深度学习与大模型带来的红利还远没用完呢。

“遇到瓶颈了吗?”的回答

首先,算不算是瓶颈?现在有些人所谓的瓶颈,就是不断地加 GPU,也看不到什么大的发展了,也即所谓 scaling law 不管用了。从智能发展的历史来看,模型走到深、走到大,这个路是对的。走到现在,也有人提出要否定大模型这条路,我觉得是有点太武断了,虽然大模型确实在消耗很多资源。我认为不要这么简单地看这个问题。我们来从事物发展逻辑与规律角度,或者叫哲学角度,再来看看。

自然界也好,人也好,生存也好,智能也好,谈什么都要一个环境或前提条件,用哲学的角度来讲就是世界或空间,或者说需要有天和地。也就是佛教中的所谓‘空’。
搞人工智能,当然需要有一定的规模硬件算力。去搭建智能所需要的‘空’或天地。为什么脑的世界要那么大规模?这说明脑要处理的问题太多,要有足够大的处理和控制能力,也即硬件能力要足够大。脑是长期进化到这个样子的,机器大脑可能类似,要没有过去几十年芯片发展的积累,没有这个移动通讯、传感器、网络的发展。就提供不了今天玩大模型智能的天地。达不到足够的硬件规模时,当然有些问题你是解决不了的。前面讲过,90年前后神经网络研究高潮时,缺的就是这种硬件规模,没有那么大的天地给你玩。

不过,这种‘空’的规模或硬件规模是个必要条件,并不等于可与半导体摩尔定律之对数线性增长相提并论,好像规模越大,效能性能就越好了。

‘空’含‘有’,也即佛语说的‘色’,有了天地就会有生灵万物,生灵万物的演化出林林总总。你要智能处理的现实世界问题,背后的知识或道理,或者直接对它的表述,可统称为内容,有一定的规模或复杂性,通过学习它上载到智能之‘空’成为‘色’。硬件的规模应该不小于这个规模或复杂性;否则,硬件规模不够,做不了或做不好;而规模大了不一定就做得好,但会提供后头发展的空间。还有,学习是通过足够大且能正确反映问题内容的数据实现的,否则也做不好。不止如此,规模或复杂性只是一个粗略角度,问题内容通常有一定结构,故‘色’也是有结构的,尽管不一定非要‘空’与‘色’在结构上匹配,‘空’也应有合适的结构或框架来有效地容纳‘色’ 的结构,

总而言之,若继续增加算力观察不到效能性能的增加之现象,既不能说明scaling law失效,也不能说大模型智能遇到了瓶颈。可能现在已有的算力规模还有很大的潜力没有发挥出来。现在大模型发展和scaling law可能被企业、投资机构和媒体过分解读或者误读了,一味地发展算力,片面地过热已导致了很多浪费。

“可能突破的方向?”与 “在框架上会有一些创新吗?”的回答

(这两个问题其实后者包含于前者,也就是所选的三个方向之第二个)

首先,从探索智能或思维的本质特性的视角,可能会有进一步的成功出现,例如前面提过的两种思维互补结合,或者快计算慢推理。在AlphaGo和ChatGPT中主要是形象思维帮助抽象思维,也可以反过来,形象思维基于具体事例或个例的累积,可靠性弱,加入按逻辑关系和因果关系的抽象思维,有望取长补短。更一般地,是两种思维的融合使用与和谐互补。

再者,从数据视角下功夫,但并不像有些人说的,现在的数据不够了,能用的都用上了,下一步主要靠合成数据。一方面,尽管数据在量上是不够,在质上更需要下功夫,常常不仅数据粗糙,且存在错误或虚假的数据。为此,可以去审视过去统计分析和数据发掘文献上已有的一些方法,来精炼现在所用的数据。另一方面,去开拓新的数据来源。过去,统计分析和神经网络学习所用的数据,来源于对观察对象的随机抽样,认为只有这样做才能真实地反映观察对象,这是一种passive被动式的数据获取。

今后可能要研究如何将人类已有知识和规律转换为可以用于机器学习的办法,也要研究如何将人类已有知识和规律转换为可以用于机器学习的数据,还可借助十年前NeurIPS会议上出现、后来不少人使用发展的所谓Distillation(蒸馏)的办法,即以前面学习建立模型为师,基于它采集教学样本数据,去训练新的模型。也可以认为这是合成数据的一种。不过要注意已经建立的模型,也是从那时使用数据学习得到的,是有所本的。需要注意的是,将已有、知识、规律、模型转化为数据也可能产生额外偏差,尤其是要小心那些依据不够的启发式合成数据,它们反映的是不真实的世界而不是你面对的世界。

下面,从前面‘空’也应有合适结构或框架的视角,来看三个方向。

● 世界模型与跨媒态整合

按中国古代哲理,天地万物也即‘空’与‘色’都是先有一个大结构,就是阴阳和谐观,如一分为二的天地、乾坤,也常见于描述性的词语,如容易、好坏等,比比皆是。现在知道的大脑智能的最基本结构,也是分左半脑右半脑、与外界出入双向的。95年我就提出过一个Bayes阴阳和谐学习理论。那些年,有些人甚至大多是国人,不愿意提什么阴阳,以为是搞迷信了,还招来不少误解甚至非议。其实并不象某些人想当然的那样,该学习理论发表于现今公认的最高顶会NeurIPS上,且受邀撰文收录于2002年MIT出版、Arbib汇编的权威性《大脑理论和神经网络 Handbook》,它梳理了过去几十年该领域中的典型工作,华人学者论文收录极少,而作者原创只有一、二个。我们中国的阴阳学问是很有道理的,近两年清华的戴琼海院士团队搞了一个光智能芯片,叫太极,它没有用阴阳的说法,背后哲理却是一样的。

当然西方人不太分两极,他们信模型。我们讲的乾坤对应到西方的语境呢,就是所谓的世界模型,更为具体丰富一些,李飞飞等美国学者就在搞这个方向,不少人认为这是一个可能的突破方向。很多人还强调跨媒态整合,也可以算进世界模型中。这个是大框架,等于把林林总总先用大的框架给它描述起来。

● DeepSeek出世(也回答了‘在框架上会有一些创新吗?’)

大框架的下一层结构,就是国内业界常说的模组,或组块、分组、分群,以便分而治之。这个不光是在智能研究中,在现实与科学里也都是这样的。

未来的突破点,一个就是DeepSeek做的MoE或早期也简记为ME,又称混合专家模型。就是并行地考虑多个模组或模块,学习过程中让每个各有专精,称为expert专家,再由一个类似专家组长角色的模型,调配组合各专家,形成一个mixture混合模型。在大模型中MoE,实质上在深度学习的同时,又在宽度上分而治之协同实现的一种宽度与深度并济的学习,可简称为宽深学习。MoE源于Jacobs,Jordan,Nowlan,& Hinton的1991年论文。1991年夏在IJCNN上我的一篇论文叫Associative Switch,与MoE的结构基本类似。92年我到MIT加入Jordan团队,就是对MoE做深入工作,与Jordan共发4篇论文、其中一篇Hinton也是作者。离开MIT回香港后,在香港中文大学我的团队后来也发表了许多篇与MoE有关的论文。

其实MoE当年火过一段时期,去年底DeepSeek-V3一出来,我马上就能理解它的框架为什么能有效率,大量的专家分而治之而协同实现规模化的大模型,而每个专家可以相对地小很多,可以分开来学习或借用之前已经得到的模型,然后再组合各专家一起协同学习,实现精调进一步提高性能。结果它只用了500多万美元就训练出来了,而Open AI的GPT-4o和美国的其他大模型,花费要贵几十到几百倍。前面提到过,Open AI 搞出ChatGPT而当时我们也有八大人工智能国家平台,那些企业的力量应该是有可能搞出了的,却没有朝这条路走,错过了先机,是个遗憾。没想到DeepSeek这个小公司给中国人出气了。

去年12月中旬在网易的未来大会上,我有一个主题发言,我也讲过,这条路你走通了,中国人有这个本事,继续做下去比你好,做到一个你本来贵的不得了的,把它做到白菜价。什么电动车也好,手机也好,都是如此。现在又出来了DeepSeek,这个小公司让我觉得很了不起。我相信下一步可能会冒出来好多类似于DeepSeek这样的应用。它现在还只是分块推理,还不是太强,未来包括再加进去一些因果关系、动态关系,以及类似AlphaGo和AlphaZero的搜索推理,这里头还可再向前走一段路。(补充:本访谈是1月14日做的,1月底又出来的DeepSeek R1,已经在推理上有了显著进展,尽管还没有在引入因果规律上着墨,在AlphaGo和AlphaZero式的树搜索上也没有太大进展)

● 具身智能与无形精灵

大模型做的是平台智能,相当于一个社会的整体智能。还要从个体角度看,我们每个大脑呢,从小学到大学的教育,先是系统地被社会的整体智能预训练过了,而后来的常态就是个体自我学习的精训练,尽管也不时地以各种形式得到整体智能的点滴式调教。

过去叫智能机器人,多年前叫智能自主移动装置,包括各种无人驾驶装置等,这两年又有具身智能即过去叫人形机器人,都是这样的个体智能。类似人和动物的大脑,个体智能还有小脑部分,控制肢体与各种感知器件。这些方面在中国发展也是亮点,已在或将要在世界的前沿上。不要光注意那几个头部的企业。有好多都是小的新创企业,它要拼命地想发展上来的时候,更会把一些东西精细化、条理化。

再补充一点,就是这个自主智能体,也不一定非要是具身的,它也可能就是个软件,放到某个软件库或平台中,也可能在李飞飞搞的世界模型中,是个无形精灵,没有什么硬件。若想要有具身就可以固化,甚至可能具身与无形灵活转换,在虚拟世界与现实世界之间自由穿梭。

AI & Society 百人百问:您讲的特别好,您把整个的AI发展脉络都讲的非常清楚了。比如像GPT o1和o3做的思维链的推理,是不是它用这个方法来替代您刚才讲人类反馈强化学习?它用自动化的方式来代替人的推理,从而把规模来做上来。

徐雷:现在它叫思维链CoT,其实它就是以前的树搜索推理中得到的最佳/成功/可行的推理路径,换了个新词。也就是成功完成抽象思维的一条路径,学的是一个或一段由人来完成的抽象思维推理过程,而用tranformer或某种大模型,从当下token预测下一个或递推地预测下面若干个token,变成做形象思维。不仅把抽象思维交给人了,而且多个token所形成的一个序段一起考虑,比RLHF加强了上下文的约束,也可改善形象思维部分。对于下围棋可能不行,一条成功/可行的求解链条太长,只能是学习序贯地这次选择一个、下一步选择一个,再下一步,…,也即将抽象思维的推理过程,转化为有教师的序列段学习过程。因为学习后做的其实是形象思维的推断,每段可能大会有偏差,合起来完成一条推理路径,各段偏差累积起来会差很大。故使用的场景,求解链条不能太长,存在可行求解路径不能太多,最好只有一条。

但是,很可能可互补地结合类似AlphaGo的推理和树搜索。现在可能因为东西太多了,很多人不愿意看前人曾经留下过什么东西。其实去回顾一下符号人工智能时代的启发式树搜索推理,可能会得到某种启发。

AI & Society 百人百问:非常同意,现在的发展都是在以前的脉络之上去做延伸。特别有启发,人思考时候,形象思维和逻辑思维不是有先后,它可能同时在思考。那我们大模型现在是同时思考吗,感觉还是先做形象,后做推理?

徐雷:是交互的,这叫对偶互补。比如AlphaGo就是每一步它都交互进行。每一步棋既有搜索的部分,蒙特卡洛树搜索的部分就是;也有形象思维的部分,就是直接看到棋盘用深度学习得到的模型,推断价值和策略,它们被结合到体现抽象思维的树搜索过程中,大大提高了搜索效率。只不过关注的人很少,尤其在国内,因为做类似AlphaGo的研究工作量大,可以借用的编程不多,很多人不愿意去搞,这方面的人才比较缺。

这边顺便提一下,当年AlphaGo出来,不少人强调蒙特卡洛树搜索,以及下快棋往前打探所起的重要角色。86年我在清华做博士的时候,就有过类似下快棋前探做法,我把它叫做侦察策略。2023年人民邮电出版社出的《中国人工智能简史》在149页就有提到,其实比类似做法后来在美国出来,要早差不多20年。不仅如此,2018年我在一篇期刊论文中,把其中对现在可能有启发的整理出几点想法,这些尤其是其中关于PC一致性和open选择,就被上个月刚以优秀成绩通过答辩的上海交大博士赵登伟(与涂仕奎教授共同指导)做出了系统地向前推进,得到了多个新结果,过去三年连续在顶会ICML2022、NeurIPS2023、NeurIPS2024上发表论文,且2024这篇为oral(千分之几接受率,上海交大电信学院历史上的第二篇,第一篇已是很多年前),这里用该例支持前面所提,几十年前的东西可能仍然对现在有启发。

AI & Society 百人百问:大模型如果进入实用,还是有很多幻觉的问题。因为当前大模型的输出,很多时候是根据概率,再累加起来,问题可能就会更大。那是不是在机理上,就决定了大模型一定会有幻觉?

徐雷:其实不光是大模型有幻觉,任何规律都是有一定适用场景和范围的。你学到的在哪一范围呢?你是怎么学的?比如通过三维空间里采样的样本来学,可能有很多应该采到而没采到的地方,得到的样本集合,不可能把整个空间填满,而是到处都是洞,要采多少个样本?以多大分辨率来填,填不到的地方,模型可能就会做一些向内插值或向外拓广,数学术语叫内推外拓,甚至也通过一个动态过程再稳定到新的地方。你拿到的那些知识和数据原来并没有这些,是对还是不对?将它们输出或生成出来,可能就是所谓的illusion(幻觉)。

人一闭眼睛,想到或看到一个虚象。你做一个梦,好像觉得它也是有逻辑的,它按照你脑子里已有知识或模型生成信息。比如ChaGPT可以把唐朝李世民和宋朝赵匡胤搅在一起,但它输出的语言串符合语法。它给你填出来这玩意来了。有真的对的,也有假的不对的,ChatGPT把它们都输出出来了,关键是怎么判断。

一般来讲,人在清醒时,生成的虚象可能被大脑中某种判断检查机制给抑制或屏蔽掉了,没有下传到底层为输出,或者设法让你‘看’不见,但有时、尤其在梦里也会感知到形象。若是人平常清醒时,也经常看到就麻烦了,成天地看到就是见到鬼了,可能就是大脑出了毛病,所以有人把这类东西叫虚象、幻象、或幻影。

前面提到,与Hinton的2006文中的RBM类似的那个,我在1991年提出的LMSER,就与视觉系统的生成虚象有关。1990年底在加拿大渥太华市Carleton大学开了大脑视觉处理方面的一个高层次科学家会议,我有机会参加了,听了一些关于视觉的东西,有点启发。更为重要的是,会间有机会与Bela Julesz在校园里,边走边聊了一段时间。Julesz被称为计算心理学之父,贡献是从随机点图看出规律性的东西如stereograms立体图。一个大家熟悉的情形,是去图书馆或书店,常看到摆在某显眼处的随机点图画册,乍一看乱七八糟,再细看里面有个老太婆,或者一个小姑娘之类的。

Julesz那时刚发表一文,关于bottom-up and top-down即底向上与顶向下的早期视觉处理双向模型。他能愿意与当时还是小年轻的我聊,原因是我前面提过的1990前后提出关于计算机视觉的HT2.0即随机化RHT方法,既有随机也是双向的特点,与他的工作有些共同的点可以切入。在他的模型中,向下只是控制attention注意机制,不到底层生成形象,且他的模型不是神经网络,也没有学习。通过听会和与他谈聊,启发了我一个念头,搞一个双向神经网络学习模型,可以到底层去生成(那时我叫重建)图像,从那个会回来,我连轴转了二、三天,赶出了前面提到的LMSER论文之初稿,先是发表于在新加坡开的IJCNN91即国际神经网络大会,后又拓展发表于期刊Neural Networks。

补充两件事。其一,当时视觉计算和脑科学都认为,是不应该下达到底层的。我是从神经网络计算视角,希望解释刚才所谓的虚象,相信应该到底层。96年德国脑理论与视觉神经科学泰斗级科学家Christoph von der Malsburg在香港开一个学术会议期间,我专门请教他,他也认为向下不应达底层,但第一届上海世界人工智能WAIC大会期间的一个晚宴上,他正好坐在我旁边,他说‘Lei,20年前你是对的’。其二,1991年初Hinton邀请我从蒙特利尔到多伦多大学访问,尽管当时我做的学术报告只涉及RHT,我把LMSER论文的打字稿给了他。当时他搞全连接的Boltzmann machine学习,没有搞双向多层神经网络。或许他当时不感兴趣没有看,或许看了没在意,或许后来忘了但实际上进了他的脑子,他2006年文中的RBM与LMSER,不仅模型结构一样,学习算法上也基本类似,但很遗憾,他没有引用LMSER的论文。

继续来谈幻觉问题。生成的幻象可能正好符合现实条件,那它就是对的。时常听到某些故事,说某科学家突然梦里想出个什么玩意,这个东西可能正好呢。也可能是另一面,脑子里的东西,或者以前的认知,或者是所学的历史上前人的认知,是在大脑硬件模型和过去学到的知识和逻辑规律等约束条件下记录的、形成的。其后,大脑中的几个东西碰到一起,会出现正儿八经的胡说八道。这时,道理是通的,但与事实不符。但也不是说完全就是坏事。自然科学或者各种领域中,定理或规律都有一个适合的范围。超越了范围,你还要乱用,它就是错的。也可以两方面来理解,胡思乱想里头有好的,你就认为它是创新,是创造。也有坏的,自然你觉得它胡说八道。因为知道它与历史史实不符,比如说唐太宗跟赵匡胤干仗了,那你肯定说它瞎编。

怎么解决呢?可能要增加一个事实库检查,甄别明显不符合历史史料的东西。就像是有知识的人不会胡说八道,没知识的人他就乱说了,乱砍一通。

有人说,可以通过样本学到模型,再生成一些样本,填补样本不足来消除幻觉。这个也不一定行,这样得到的样本,是对已有模型的概括或凝练,对于将训练该已有模型的那些样本中凝练出更精华的部分,而不是得到过去也没有的样本,尤其是从小样本学到的模型,再生成出来的样本,不排除可能是好的、有用的,但更大机会是错的,你硬把它搞到大样本去了,等于改变了现在世界,引入了额外的一种错误。

稍微延展一下这个话题,机器智能会不会超过人?我非常怀疑。人类智能的最高级之处,就是不断突破现在的空间,出现某个技术或者某种文化的改变,就把这个世界一下子改变了。科学家或少数天才或领袖,可能由小样本甚至零样本的事件,开创了个新世界,大家都认同跟随,变成大样本的下一个世界了。

轻易说什么通用人工智能,什么能取代人,我认为都不合适。能有辩证思想是比较重要的,中国人不讲绝对真理,只有相对真理,讲的是阴阳,是两个不断的和谐体,一致和谐地变化。按西方思维,动不动就问,这个智能体的终极形式是什么呢?统计数学中典型例子就是大数定理,也就是存在一个可无限趋向的绝对真理。实际上,不存在一个绝对的极限真理。

没有了绝对标准,怎样认同创新呢?假如有了能够定量表述的标准,就能消除好多虚幻玩意了。来看人是怎么样认同创新的?先是跟过去历史比对,检查符不符合史实、以及已经知道的逻辑规律和因果规律。符合了就认为是有道理,不符合那就是错的。但若历史没出现过这些玩意怎么办呢?那要看它有用没用、有没有带来好处,这要靠后来观察,在空间或时间上积累的认同证据。还有一种更神奇的创新,在这个世界内的某时某处,受到某种刺激或灵光一现,某个聪明的大脑,例如一个科学家的大脑,靠推理?还是顿悟?一下子跳到另外新的空间去了,比如发现了半导体,之前一个半导体样本都没有。后来大家都跟随,关于半导体就是大样本了,世界也跟着改变了。极少数大脑才能如此智能,极少数人才能看出来那个是好东西。

AI & Society 百人百问:那听下来,比如刚才说人的创造是从一个空间跳到了另一个空间,那人工智能未来您觉得它能有这种创造力吗?

徐雷:也可能是空间多了一个或多个维度,不是跳跨空间,而是空间拓展了。不管如何,要人工智能从少量样本甚至零样本,能跳跨或是拓展空间,是一个巨大挑战,看不到任何理由支持它能做到,当然也没有绝对令人信服的理由,说它不可能做到。

但可能有一种考虑方向,你想要人工智能,就要能用数理去描述它、去计算它。你计算出来各种各样的新样本或东西,叫它创造也好,叫它幻觉也好,哪个是好的,哪个是坏的,关键在你怎么评价它,有没有判断标准?前面谈了,要靠历史检验,靠后来在空间或时间上积累的认同。那极少数人才能做出的神奇创新呢?靠什么检验呢?靠公认的更高级大脑的认可。例如数学领域的菲尔兹奖,有之前菲奖得主认可就行,既然其他人都搞不懂,那个认可他的人,大家已经公认了他,所以都得信他。

30多年以前我在国外似乎整理出,人类在评价一个人时,有三种规则。一是针对商业的,就是钱,有钱就算厉害。二是得票数,演员也好,搞选举也好,现在的许多评审也好,都是投票。还有第三种,由大家已经公认的天才来评判,爱因斯坦认可的物理成果,一般人就不能不认,除非来自可以与爱因斯坦匹敌的另一个天才有非议。这个原因也很简单,好不容易成公认天才了,绝不会轻易因为什么人际关系,或者什么利益,瞎给你来评。他们能看到的东西,一般人是理解不了的,尤其是数学领域。前几个月,不少人以为诺贝尔奖也像当歌星一样,你一嘴,他一嘴,大家网上投票了,根本是两码事。

创造性的东西,需要公认更强的前人来认可,或者将来历史发展的认可。如果得不到认可,只好孤独一阵子,等到历史发展到某个时候,有后人来认,那就很幸运了。也有可能是,你的创新后人却因搞不清楚它的归属而不认了,那你也只好摸摸鼻子,科学史就是这样发展的。你让机器怎么学习这些呢?

AI & Society 百人百问:这确实是个难题。刚才咱们谈了很多原理的东西,最后一个问题就是应用,您大概有没有一些预判,因为现在其实已经看到To B的不少领域,如客服、广告、设计等已经取得不错的效果。To C 领域,像AI搜索、对话机器人、教育、情感陪伴等,也都有不小的日活用户量。从您的角度,怎么样去看这些应用,未来会在哪些环节,把这个应用的广度和深度去打开呢?

徐雷:广度来看,大家都能参与的,就是刷脸了,已经是差不多用到极致了,尤其在中国,毫无疑问地中国在刷脸方面应该是全世界第一。

下一个呢?就是ChatGPT带出来的各种应用类型,可能还有最近出现的、前面称赞过的DeepSeek。在此基础上,会有更多的APP出来,就好比PC和移动互联网时代。就看你怎么用到各个实践里去了,各个场景都有可能。广度拓展实际上是自发的,到一定层次后,它很可能会带来生产力的大变革,但这个是不好推测的。

还有我们应该考虑的,是比较垂直的各大企业的应用。我一直就不认同只提人工智能+X,去加各个行业。应该是两个一样强调,一个叫人工智能+X ,还有一个叫 X+人工智能。其实更要注重的是后者。很多领域里需要有很深的领域知识,国内很多搞人工智能的,可能欠缺的正是这点。现在有很多都是表面上可用的公用平台,但是实际上呢?

大飞机、大船厂等大企业里头,也有人工智能团队。要鼓励、协助引领这些领域的应用。还有中国可以考虑的地方,就是那些涉及到大规模的问题,比如说蛋白质有各种各样可能的结构,去选出一个最好的结构,再比如药物设计,制药等,也形成一个大有前景的方向。

另外,其实已经谈过了,就是具身智能,我觉得也是很大的机会。不少企业已经或将要在处于世界前沿,与DeepSeek类似的,还要提到宇树科技,可能已赶上或有些地方甚至超越Boston Dynamics。记得2017年在上海经信委引进多个人工智能顶流企业入沪的评审会上做评审,我曾与来自机器人国内顶流企业的评委请教何时我国能比肩Boston Dynamics,当时估计要大10几或20年,才八年就看到了宇树科技。

从宇树科技、DeepSeek等出现,我冒出一个吃不太准的看法,我国AI创新头部企业正开始换代,甚至是AI创新企业的‘少年中国’才开始,从80接近90后算起,多是来自我国恢复高考且第一轮毕业几年后开始出生的‘少年英雄’,不僵化、不媚俗、不崇洋,推动中国走向顶尖。

– End –

转载请注明:好奇网 » 专访上海交大讲席教授徐雷:人工智能走了20年弯路之后

发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址