有志者,事竟成,破釜沉舟,百二秦关终属楚;苦心人,天不负,卧薪尝胆,三千越甲可吞吴。——蒲松龄

经济学人深度文章:机器的觉醒

好奇 爱 好奇 2296浏览 0评论

31

本文来源Economist,机器之心翻译,参与成员:Rita、汪汪、郑劳蕾、桑夏、赤龙飞。

伊隆·马斯克致力于创造人类的未来。作为连环创业者,他起步于互联网早期阶段。如今,他不仅创建一家纯电动汽车公司,把人类从汽油的噩梦(污染与高价)中解救出来,还希望有生之年使用自己制造的火箭——SapceX将普通人送入太空。这一切的迹象似乎都在透露:对于未来科技的前景,马斯克保持乐观的态度。

不过,马斯克并非看好所有前沿科技,比如人工智能。去年10月美国MIT的一次公开访谈上,马斯克称人工智能就是「召唤恶魔」——对人工智能的研究将成为人类未来最大的敌人。很多人对他的这一看法表示支持,比如牛津大学哲学教授Nick Bostrom,他曾推动「人类生存危机」(译者注:指威胁到全人类生存的危险,例如气候极端变化、核战和生态系统等。)的研究——其中将超级智能作为人类的重大威胁,与小星球冲撞地球和大规模的核战争并列。与此同时,前英国皇家学会会长Lord Rees在剑桥大学建立了一所人类生存危机研究中心,该研究中心十分重视人工智能带来的威胁。

过去十几年来,人工智能获得快速发展,上述一系列的担忧与人工智能的火爆形成鲜明对照。科技巨头们——谷歌、Facebook、亚马逊和百度纷纷涉足这个领域:四处挖掘人才、建立研究实验室、高价收购创业公司等等。总的来说,这些业内人士并不担心被自己研发出的「产品」所超越。他们能够用机器完成一些原先只能靠人类才能完成的任务,这种工作其实并没有创造出许多新的思维方式,而是消除了对旧方式的依赖。

全球移动设备如计算机、平板电脑、智能手机的普及,使我们迈入了大数据时代,而人工智能具有强大的计算能力,这意味着人工智能的算法可处理这些数据,包括语音识别、图片识别等等。数字技术变革的速度加快,会让我们担心数以万计的技术人才会因此失业,因为许多工作所需要的技能是识别出图像、理解语言,等等。如果计算机可以替代人类完成这些工作,不管是通过提供完全自动化的解决方案还是通过帮助员工提升工作效率,那么未来将会有更多的工作者从白领步入领取政府救济金的行列。

人工智能兴盛的迹象到处都是。去年就盛传谷歌为收购人工智能新创公司DeepMind花费了四亿美元,它在Facebook的眼皮底下挖走了这家公司。而Facebook也毫不示弱,邀请来自纽约大学的人工智能著名学者Yann LeCun 牵头来建立属于自己的人工智能研发实验室。谷歌曾雇用过斯坦福大学毕业的人工智能专家 吴恩达,直到去年他被百度挖走在硅谷建立了属于自己的实验室。来自芝加哥的公司Narrative Science希望开发智能写作的产品(该技术已经被商业杂志福布斯采用,用于基本财经报道的写作)。位于麻州剑桥的Kensho旨在将金融工程师现有的工作自动化,这已经让投资者们尝到了甜头。在今年的4月13日,IBM宣称将使用沃森计算机来做健康分析和医药研究,沃森计算机曾在2011年美国寓教于乐的智力竞猜比赛Jeopardy中碾压了两位人类冠军。

深层思考

人们对于人工智能的研究就和计算机本身一样久远。现在大多的兴奋点都集中在一个称作「深度学习」的分支,相较于在一大堆数据中自我生成任务的「机器学习」来说,这是一个现代化的进步。这些代码将在所有人工智能的研究中搭建一个桥梁,弥补一个鸿沟:有一些对人类非常难的事情对机器却非常容易,反之亦然。如果来求解复杂模型的公式,最简单的电脑也能击败人类。反之,最厉害的计算机在过去相当长的一段时间里也会被人类一眼就能解答的问题所困扰,比如人脸识别、编译演讲或者在图像中甄别中具体物件。

有一种理解是,对于那些人们觉得困难的事情比如求解复杂方程,人们必须要拟定一套规定。然后按照这套规律再来计算就会非常简单。对于那些人们觉得简单的事情,就没有必要去创造一个法则来解答,想要创造也很难。举一个非常有名的例子,成年人能区分色情图片和非色情图片的不同。但1964年时美国最高法庭的法官Potter Stewart 发现要想定义人们是怎么区分的几乎是不可能的。他对于要用严谨合法的文字来定义色情而几乎绝望,于是他甩手写道:尽管无法给出色情的定义和大致内容,「但我一看到就能分辨出来」。

而机器学习的方式是通过计算机内部的程序去识别和分析,通常这种分析都是由大量数据高负荷运算解析完成的。

很多系统采用了一种古老但很有价值的人工智能技术——神经网络来开发他们需要的统计模型。神经网络这个概念在20世纪50年代被研究者提出,虽然当时人们还不知道什么是智能,但是人们知道大脑里拥有它。而人类大脑在信息处理时不是使用晶体管,而是通过神经元。如果能模拟这些传递电化学信号的纤长且高度互连的神经细胞,可能就会产生一些或多或少的智能行为。

天罗地网

神经系统拥有庞大的复杂性。即使在今天的科技水平下,人工智能对神经网络的模拟也很拙劣,就像简笔画和照片的区别一样。但近期的研究表明,即使是最粗糙的神经网络,也能很好地完成一些任务。微软的人工智能研究者Chris Bishop指出,从20世纪60年代开始,电话公司就开始采用神经网络中发现的「回音消除算法」。但这些早期的成功应用逐渐失去了魅力。人们可利用的计算能力,大大局限了神经网络模拟的规模,也限制了这项技术的应用范围。

然而,在过去的几年中,电子游戏对图像的需求重燃了人们的兴趣,这使得芯片的运算能力有了显著提升。早期的人工神经网络规模很小,仅有几十个或几百个神经元,通常组织成单层。而最近,谷歌等公司使用的神经网络已经能够模拟数十亿的神经元。有了如此巨量的神经元,研究者们便能够更好地模拟大脑,将神经元组织成彼此不同、金字塔式的多层网络。正是这些互相关联的层级,为深度学习提供了「深度」。

每一层神经网络用来处理不同程度的抽象概念。比如说,要处理一张图片,最低层级识别了原始图片。它记录下图片中每个像素点的亮度和颜色,以及这些属性在区域中的分布情况。第二层将这些观察数据综合起来,组织成更抽象的类别,识别出其中的边缘、阴影等特征。第三层则开始分析这些边缘和阴影,在其中搜寻各种组合特征,比如象征着眼睛、嘴唇和耳朵的特征。而这些特征,以一定方式组合起来,就代表着一张脸——不仅能识别出任意一张普通的脸,甚至还能认出它以前见过的某一张脸的新照片。

32

神经网络要发挥作用,必须先接受训练。比如说,一台机器要教会自己识别人脸,必须先被展示一个「训练集」,其中包含成千上万的照片。这些照片中,有的包含人脸,有的没有。每张都必须进行人工标记。这些照片就像一个系统的「输入」,而「有脸」或「无脸」的标记则好似「输出」。计算机的任务就是总结出一个「输出」与「输入」相符合的统计规律。为了实现这一点,它会在自己神经网络的每一个不同抽象级别的层级中进行搜寻,寻找与人脸照片相似的所有特征。当相关性达到足够程度时,这台机器就能够切实可靠地从训练集中分辨出哪些照片是有脸的,哪些是无脸的。接下来,你可以随意给它一组新照片,检验一下它之前总结出来的「人脸识别规则」是否符合真实世界。

33

通过这样一种自下而上的工作,机器学习算法学着去识别特征、概念和类别,这就是人类非常擅长但一直很难用代码去实现的任务。但这样的算法在很长时间里时过分狭窄和细分。程序经常需要从它们的开发者那里获得提示,根据特定的具体任务来设计出一套专门的「手工制作」的代码,这些具体任务包括图像处理和语音识别等。

此外,早期的神经网络只拥有有限的数据处理能力。超过这个临界点时,为它们输入更多信息并不会带来更好的表现。而现在的神经网络系统所依赖的开发者的指导和调整要少得多。同时,不管你能输入多少数据,系统都能够对其进行充分利用,而互联网也带来了大量可以提供给系统的数据。

百度、谷歌和Facebook等互联网巨头坐拥他们用户带来的海量信息。大量的邮件、搜索和交易的历史信息,无穷无尽的图像记录了人脸、汽车、猫、以及纪录在他们服务器上的世界万物。这些公司的领导人深知这些数据中蕴含了有价值的模式,但信息的绝对量却令人生畏,好在机器不惧怕这些。信息过载是个问题,但归根结底,解决方案也孕育其中,尤其是突破了这个关键的时间节点之后:许多数据在人为加标签之前就已经能被使用了。基于正确算法的加强,计算机能使用这些带注释的数据来自行学习,从而辨认出里面的那些有用的模式、规则和类别。

在这方面已经取得了骄人成绩。Facebook于2014年公布了名为DeepFace的算法,它从图片中能够识别出特定人脸的准确度能达到97%,甚至他们的脸部被部分遮挡或亮度不足。这就做到了之前只有人类才能做到的事情。微软称,其为语音助手Cortana开发的物体识别软件能够告诉用户彭布罗克威尔士柯基犬和卡迪根威尔士柯基犬的区别,这两个犬类品种的照片看起来非常像(见下图)。有些国家,比如说英国已经使用人脸识别技术来进行边境安防控制,这套系统能够从一端影像中识别出某个人,这对警察和侦探非常有吸引力。5月5日发布的一份报告展示了美国的侦探是如何使用语音识别软件来将语音通话转化成文本的,这样他们就能更好的对谈话内容进行搜索。

34

35

但是,尽管互联网是一个巨大的数据宝藏,但它并不是无穷无尽的。机器学习算法赖以发展的那一类人类标记过的数据资源是有限的。为此,发展不需要人类辅助的「无监管学习」算法的比赛已经开始。

目前已经有了很多进展。2012年一支由吴恩达领导的谷歌团队展示了一个无监督学习的机器对数百万张YouTube视频图像的分析。这个机器学会了给它见过的常见物体进行分类,包括人类面孔和(供网民娱乐的)猫,包括网上随处可见的各种动作:睡着的、跳跃的、玩滑板的。人类没有在这些视频上标明包含「面孔」或「猫」的字眼。相反,机器在看了每个物体不计其数的例子后简单断定,它们表现出来的统计模式已经具备了足够的普遍性,从而可以将这些物体进行分类。

识别单个物体的下一步是识别多个不同物体。斯坦福大学Andrej Karpathy和李飞飞发表的论文描述了一个计算机视觉系统可以标出一个给定图像的特殊部分。例如给它看一个早餐桌子,它可以识别出餐叉、香蕉片、一杯咖啡和桌子上的花以及桌子本身。它甚至可以在场景中(从右侧看到图片)用自然英语做出描述——尽管这项技术还不是特别完美(从下边看到图片)

36

互联网巨头如谷歌都对这项成果感兴趣,因为它可以直接影响到这些公司的底线。更完善的图像分类能够提高搜索能力从而帮助用户更好的找到他们所想要的东西。从长远来看,技术可以找到其他更多的革新性应用。能够对其分解及进行某个场景解释对机器人研究者来说是有用处的,这有利于使他们正在研发的产品(工业机器人伙伴、自动驾驶汽车,战争机器人)来领航这个杂乱无章的现实世界。

37

图像分类也是可以促成「增强现实」实现的技术,增强现实主要应用在可穿戴设备,比如谷歌眼镜或微软的HoloLens,它是把有用的信息覆盖到现实世界之上。Enlitic,一家总部设在旧金山的公司,希望通过图像识别分析X射线和核磁共振扫描的图像,以发现人类医生可能漏掉的问题。

深度学习并不局限于图像。它是一项通用的模式识别计算,这意味着,从本质上来说,任何利用到大数据的活动,从运营保险业务到基因研究,都能找到它的用处。最近在CERN(欧洲核子研究组织)——世界最大的粒子物理实验室举办的一次竞赛中,深度学习算法比物理学家写的软件更好地识别了亚原子粒子的特征——尽管创造这些算法的程序员们没有专门的物理学知识背景。更惊人的是,一组研究者(译者注:即谷歌收购的DeepMind)写出了一个程序,在学习玩视频游戏例如 Space Invaders时会比人类更擅长。

38

深度学习同样也能改进机器翻译。得益于可以从网上获取大量的多语言文本,机器翻译已经开始使用神经网络。供职于百度的吴恩达认为,智能手机上运行的良好的语音识别程序可以让中国很多文盲群体接触到互联网,这会导致与普通计算机的竞争。目前,百度有10%的搜索是通过语音进行。他相信,到2020年这会提升到50%。

这些不同类型的人工智能可以整合到一起形成一个更加强大的系统。例如,2014年5月,在加利福尼亚州举办的会议上,微软展示了一款可以实时语音翻译的程序。公司一名研究人员用英语与一名德国的同事通话。这款程序中的一个人工智能程序将声波解码成多个英语短语,另外一个程序将这些短语从英语转成德语,第三个程序再将德语转成语音。微软希望未来能够将这一技术运用到互联网电话Skype上。

机器无魂灵

更好的智能手机、更新奇的机器人以及让文盲群体能够使用互联网都是好事。但这些能够佐证马斯克和其他人已有的担忧吗?也许图像识别、自我编程计算机正是机器迈向比它们的创造者更聪明的道路上的早期阶段但却关键性的一步。

末世论者有一个重要的支持论据。那就是,数十年的神经科学研究始终没有结果能表明大脑不是机器。它由普通原子组成,使用自然力并遵守普通自然法则。换句话说,并没有推动其运行的神秘「精神」存在。这说明建造一个人工大脑——或者一个与大脑外观不同但功能类似的机器——原则上是可行的。

但是原则上可行跟实际去做是截然不同的两件事。现供职于波士顿Rethink Robotics公司,也是人工智能先驱之一的Rodney Brooks说,这个问题部分源于对「智能」这个词的混淆。现在计算机能够完成人类大脑过去可以完成的一些狭义上的任务(毕竟,最初的「计算机」是人类,通常是指做那些棘手运算问题的女性,而这些问题对数字设备而言十分容易)。一个图像分类器可以很精准,但是它没有目标,没有动机,也没有意识到自己只是作为一个电子表格或气候模型而存在。而且,如果你试图进行脑力劳动,你也不必以现在人工智能那种方式来完成它们。人工智能使用很多蛮力来从系统中获得看似智能的回应。这些系统尽管比之前更加庞大,也更佳强大,但在思考方面却没比过去提高多少。不要奢求建造一个类似生物大脑的系统。就像另外一位人工智能先驱Edsger Dijkstra曾经评论的那样,问一台计算机是否可以思考就跟问「一艘潜艇是否可以游泳」差不多。

圈套与错觉

没有什么比将现有的人工智能程序愚弄一番更能说明问题的了。一篇将在6月份召开的计算机视觉会议上发表的论文展示了一些被设计出来愚弄图像识别算法的视错觉。它向我们展示了算法如何运行——在模式之间进行匹配,但算法的工作却如此盲目,在理解内容方面一无是处(就像是只认识到了棒球是个客观物体,而不能把它当成一个对球面的缝合线进行模糊联想的抽象模式),它阻止了人们掉进类似陷阱。它甚至可能为我们构建出某种图像,这看上去就像毫无意义的电视雪花点一样,但神经网络却无法对其精确分类——就像对实际物体所做的那样。

39

至少对某些人来说,这些状况并不意味着人工智能项目就不能取得令人欣慰的进展。同时,相对于那些已经过去的科技革新浪潮来说,这些人中相当大部分来自中产阶级。比如上文提到的微软的实时翻译项目,这项技术从展示效果来看还远远称不上完美。但没有人会将机器语音翻译错认为专业翻译。但是对于把握交谈中的重点,这已经足够了。这比雇佣一个专职的翻译人员要方便和便宜得多!这样一个算法能够将现在的那种昂贵的、定制的专业翻译服务变成每个Skype用户都能享受到的功能(当然,效果会差一些)。这样一来,对专职翻译人员也许是坏事,但对于其他所有人却是好事。而且微软的这个项目还会不断优化。

在这次新产业革命中对于人工智能可以胜任白领工作的焦虑,就如同第一个工业革命中蒸汽机的出现取代蓝领工作一样,这需要严肃对待。比如Narrative Science的机器财经记者和Kensho的机器数据分析师。

Kensho的系统被设计成能够描述自然语言的查询搜索,比如「当原油价格每桶降低5美元,汽车企业的股价将会如何变化」?它会去查找公司财报和上市文件、历史市场数据等,并在几秒内以自然语言的形式做出回复。Kensho计划将这套软件系统推向大型银行和富有经验的交易员。一家法国企业Yseop使用自然语言处理软件来描述查询需求,搜遍所有数据来寻找答案,然后1秒钟就可以用英语、西班牙语、法语或德语写出3000页的答案。欧莱雅和兽医在线VetOnline等公司已经使用该系统用于网站的用户支持功能。

这不只是一种理论上的担心,因为有一些白领的工作已经让位于机器了。例如,一些公司用电脑来进行电话客服。因为那些令人抓狂的限制,它们在遇到无法理解的问题时也需要人类的支持。很难预测将来有什么工作会像这样被机器取代,即使牛津马丁学院在2013年发表的一篇论文让他们恐慌不已,论文的结论是,美国统计学家追踪的工作类型中将有一半会遭受到机器的袭击。

技术在给予我们的同时也会索取。自动化的、便宜的翻译无疑是有用的。拥有一个不知疲倦的且速度飞快的电脑来查看医学影像也是有必要的。或许,思考人工智能的最好方式就是将其简化成认知增强发展史上的最新成果,人类一直通过研究认知增强来提升自身大脑的能力。这项研究的科技含量要高于纸(提供了一种便携式的、可依赖的存储方式)和算盘的发明,它们是用来辅助提升我们的心算能力。就像印刷术的出现使抄写员失业,高端的人工智能也会牺牲掉一些工作。但对于那些他们的工作无法被取代的人,这会进一步增强他们的能力,因为这将给每个人赋予使用「智力工具」的机会,而这在目前只属于少数人。现在,每个拥有智能手机的人就如同把一个城市中所有的旧时的人类计算员装进了口袋,它们为你工作却不需要任何报酬,无非就是充充电而已。在未来,我们还会拥有任由我们使唤的贴身翻译和诊断医生。

更加聪明的计算机将会成为真正的变革性技术,但至少不是基于马斯克先生和Lord Rees先生的原因。或许有一天,人类大脑的特有智能能够在机器中被创造出来。但截止到目前为止,最好的建议就是无视那些「计算机将接管世界」的威胁论,而是应该弄清楚它们首先不会夺走我们的工作。

转载请注明:好奇网 » 经济学人深度文章:机器的觉醒

发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址