书山有路勤为径,学海无涯苦作舟。

AI模型首次实现与人类专家等同的语言分析能力

摘要

当 OpenAI 的 o1 模型在无训练语料的虚构语言中,表现出精准绘制句法树、破解中心递归、厘清单句歧义并自主发现音系规则的能力后,语言学家不得不重新回答那个古老问题:如果语言曾被视为人类最后的“专属领地”,人类再次追问语言的独特性究竟还剩多少?

Steve Nadis丨作者
任筱芃丨译者
赵思怡丨审校


如果语言是人之所以为人的特性,那么当大语言模型获得了“元语言”能力,这又意味着什么?

在人类拥有的无穷多量的能力中,哪些是人类独有的?至少从亚里士多德开始,语言就一直是首要的备选答案。他曾写道,人类是“拥有语言的动物”。尽管像 ChatGPT 这样的大语言模型在表面上复制了日常言谈,但研究人员想知道,人类语言的某些特定方面是否独特到在其他动物或人工智能设备的通信系统中根本不存在对应物。

Noam Chomsky,语言学家

研究人员尤其一直在探索语言模型在多大程度上能够对语言本身进行推理。对于语言学界的一些人来说,语言模型不仅没有推理能力,而且也没有对应的潜力。著名语言学家诺姆·乔姆斯基(Noam Chomsky)与伊恩·罗伯茨(Ian Roberts)、杰弗里·瓦图穆尔(Jeffrey Watmull)在 2023 年声明了这一观点,他们当时在《纽约时报》上写道:“对语言的正确解释是复杂的,不能仅仅通过沉浸在大数据中就学会。”这些研究人员认为,人工智能模型或许擅长使用语言,但它们没有能力以复杂的方式分析语言。

Gašper Beguš, 加州大学伯克利分校语言学家

这一观点在最近的一篇论文——《Large linguistic models: Investigating LLMs’ metalinguistic abilities》——中受到了挑战,该论文由加州大学伯克利分校的语言学家 Gašper Beguš、最近在伯克利获得语言学博士学位的 Maksymilian Dąbkowski 以及罗格斯大学的 Ryan Rhodes 共同撰写。研究人员让多个大语言模型接受了一系列语言学测试——其中一项测试是让大语言模型归纳一种虚构语言的规则。虽然大多数大语言模型未能像人类那样解析语言规则,但其中一个模型展现出了令人印象深刻的能力,远远超出了预期。它能够像语言学专业的研究生一样分析语言——绘制句子结构图、解析多种歧义,并利用像递归(recursion)这样的复杂语言特性。Beguš 说,这一发现“挑战了我们对人工智能潜力的理解”。

Tom McCoy, 耶鲁大学计算语言学家

“这项新工作既及时又‘非常重要’,”耶鲁大学计算语言学家 Tom McCoy 说道(他并未参与这项研究)“随着社会对这项技术的依赖程度越来越高,了解它在哪些方面可能成功以及在哪些方面可能失败变得日益重要。”他补充说,语言分析是评估这些语言模型在多大程度上能像人类一样推理的理想试验台。

无限的复杂性

对语言模型进行严格的语言学测试,挑战的一部分是确保它们事先并不知道答案。这些系统通常在海量的书面信息上进行训练——不仅包括互联网上的大量内容(涵盖几十甚至上百种语言),还包括语言学教科书。理论上,模型可能只是死记硬背了训练时见过的内容,然后在测试中原样输出。

为了避免这种情况,Beguš 和他的同事设计了一个分为四个部分的语言学测试。其中三个部分要求模型使用树状图来分析特制的句子,这种图表最早由乔姆斯基在其 1957 年的里程碑式著作《句法结构》(Syntactic Structures)中引入。这些图表将句子分解为名词短语和动词短语,然后再进一步细分为名词、动词、形容词、副词、介词、连词等。

测试的另一部分则聚焦于递归——也就是把短语嵌套进其他短语的能力。比如,“The sky is blue”(天空是蓝色的)是一个简单的英语句子。“Jane said that the sky is blue”(简说天空是蓝色的)则把原句嵌套进了一个更复杂的结构中。重要的是,这种递归过程可以无限进行。“Maria wondered if Sam knew that Omar heard that Jane said that the sky is blue”(玛丽亚想知道萨姆是否知道奥马尔听说简说天空是蓝色的)虽然听起来有点拗口,但在语法上仍然是正确的递归句。

递归不仅是语言的关键要素,也是自然界的一个特征。例如,在加拿大北部的维多利亚岛上,人们可以找到一个位于岛上湖泊中的小岛。但那个小岛本身又位于一个更大的岛上的湖泊中。这个最里面的无名岛是已知最大的“三阶”岛屿,它有时被开玩笑地称为“盗梦岛”(Inception Island),源于 2010 年克里斯托弗·诺兰执导的电影《盗梦空间》(Inception),影片中角色们会进入梦中梦的梦中世界。

递归一直被乔姆斯基等人称为人类语言的决定性特征之一。实际上,它或许也是人类思维的决定性特征。语言学家认为,正是递归的无限潜力,使得人类语言能够用有限的词汇和有限的规则,生成无限多的可能句子。到目前为止,还没有令人信服的证据表明其他动物能够以复杂的方式使用递归。

递归可以发生在句首或句尾,但最难掌握的形式是发生在句中的中心嵌入(center embedding)。例如,从“the cat died(猫死了)”变成“the cat the dog bit died(狗咬了的那只猫死了)”。

Beguš 的测试向语言模型输入了 30 个包含复杂递归例子的原创句子。例如:“The astronomy the ancients we revere studied was not separate from astrology。”(我们崇敬的古人所研究的天文学与占星术并非泾渭分明。)使用句法树,其中一个语言模型——OpenAI 的 o1——能够确定该句子的结构如下:

The astronomy [the ancients [we revere] studied] was not separate from astrology.

我们崇敬的古人所研究的天文学与占星术并非泾渭分明。

该模型随后更进一步,为该句子添加了另一层递归:

The astronomy [the ancients [we revere [who lived in lands we cherish]] studied] was not separate from astrology.

我们所尊敬的那些生活在我们珍视的土地上的古人所研究的天文学与占星术并非泾渭分明。

Beguš 和其他一些人没有预料到,这项研究会发现一个具有更高层次“元语言”(metalinguistic)能力的 AI 模型——正如他所说,这“不仅是使用语言的能力,更是思考语言的能力”。

David Mortensen, 卡内基梅隆大学计算语言学家

“这是他们论文中‘引人注目’的方面之一,”卡内基梅隆大学的计算语言学家 David Mortensen 说道。关于语言模型是否只是在预测句子中的下一个词或语言学上的标记 (token)一直存在争议。这种能力与人类对语言的深刻理解有着本质区别。“语言学界的一些人曾说,大语言模型并不是真的在‘处理’语言,”他说。“这项研究看起来像是否定了那些说法。”

你什么意思?

McCoy 对 o1 模型的整体表现感到惊讶,尤其是它识别歧义的能力,他说,这是众所周知的计算语言模型难以捕捉的东西。人类“拥有大量的常识知识,使我们能够排除歧义。但计算机很难拥有那种程度的常识知识。”

例如“Rowan fed his pet chicken”这样的句子,既可以描述罗文(Rowan)喂了他当宠物养的鸡,也可以描述他喂了他的(大概是更传统的意义上的)动物伴侣一顿鸡肉。o1 模型正确地生成了两棵不同的句法树,一棵对应句子的第一种解释,另一棵对应第二种解释。

研究人员还进行了一些与音系学(phonology)相关的实验。该学科研究声音的模式以及最小声音单位——称为音位 (phonemes) ——的组织方式。为了像母语者一样流利地说话,人们会遵循一些音系规则,这些规则可能是通过练习习得的,而从未被明确教授过。例如,在英语中,在以“g”结尾的单词后添加“s”会产生“z”音,如“dogs”。但是,在以“t”结尾的单词后添加“s”,发音则更接近标准的“s”,如“cats”。

在音系学任务中,研究小组创造了 30 种新的“迷你语言”(Beguš 称之为),以测试大语言模型是否能在没有任何先验知识的情况下正确推断出音系规则。每种语言包含 40 个虚构词。以下是其中一种语言的示例词:

θalp ʃebre ði̤zṳ ga̤rbo̤nda̤ ʒi̤zṳðe̤jo

然后,他们要求语言模型分析每种语言的音系过程。对于上面这种语言,o1模型正确地写出:“当一个元音紧接在一个既是浊音又是阻碍音(obstruent)的辅音之后时,它就会变成一个气声元音(breathy vowel)”—— 阻碍音是一种通过限制气流形成的音,比如“top”中的“t”。

这些语言是新发明的,所以 o1 不可能在训练期间接触过它们。“我没想到结果会如此出色,如此令人印象深刻,”Mortensen 说。

非得是人类吗?

这些语言模型能走多远?它们会仅仅通过变得更大——叠加更多的计算能力、更复杂的结构和更多的训练数据——就无限地变得更好吗?还是说,人类语言的某些特征是我们物种独有的进化过程的结果?

最近的研究结果表明,这些模型原则上可以进行复杂的语言学分析。但是,目前还没有一个模型能提出任何原创性的东西,也没有教会我们任何关于语言的、我们以前不知道的知识。

如果模型的改进真的只是增加计算能力和训练数据的问题,那么 Beguš 认为语言模型最终将在语言技能上超越我们。Mortensen 则表示,当前的模型有一定局限性。“它们被训练来做一件非常具体的事情:给定一个标记(tokens)或单词的历史,预测下一个标记,”他说。“由于它们被训练的方式,它们在概括方面存在一些困难。”

但考虑到最近的进展,Mortensen 表示,他看不出任何理由语言模型最终不会表现出超越人类的语言理解能力。“用不了多久,我们就能打造出用更少数据做出更好泛化、且更具创造力的模型。”

Beguš 指出,新结果正一步步“削平”那些曾被视为人类语言专属领地的特性。“看起来,我们并没有我们以为的那么独一无二。”

参考文献

https://www.nytimes.com/2023/03/08/opinion/noam-chomsky-chatgpt-ai.html

转载请注明:好奇网 » AI模型首次实现与人类专家等同的语言分析能力

发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
>