将文学问题变成数学问题，Google的”看图说话“是这样实现的

将一种语言翻译成另一种，一直是一个艰巨的任务，Google已经通过开发机器翻译算法使这种情况发生了改变，用Google翻译改变了跨文化交流的本质。而今，Google正在用同样的机器学习技术来将图片“翻译”为文字，研究成果是一个可以自动给图片生成说明文字的系统Neural Image Caption，所得的文字能够准确地描述出图片的内容。研究成果将有助于搜索引擎，以及帮助视障人士上网。

语言翻译的常规方法是一个迭代过程，从翻译单个单词开始，然后将词和短语进行重新排序，从而改进翻译。但近年来，Google已经研究出来了应如何利用其庞大的搜索数据库，用一种全新的方式来翻译文本。

该方法本质上是计算字词出现于其他字词周围或者附近的频率，然后将这些词定义在抽象的矢量空间中。如此一来，每个字词都由一个矢量代替，句子就由矢量的组合代替。

Google继续做出一个重要的假设。在任何语言中，特定的字词之间的关系不变。例如，矢量“国王–男人+女人=女王”成立于任何语言之中。

这就使得语言翻译变为了一个矢量空间数学问题。Google翻译通过将句子转化为矢量，再用矢量来生成另一门语言中意义相同的句子，从而实现语言的翻译。

现在，Google的Oriol Vinyals和他的小伙伴们正在用类似的方法将图片转化为文字。他们采用的技术，是用神经网络来研究有着十万张图片和配套图片说明的数据库，然后学着如何将图片的内容进行分类。

但他们的算法产生的是代表字词关系的矢量，而不是一组描述图片的字词。这种矢量可以嵌入到Google现有的翻译算法当中，从而用英语或者其他语言产出图片说明。事实上，Google的机器学习方法已经学会了将图片“翻译”成文字。

为了测试这种方法的有效性，他们让从亚马逊Mechanical Turk招募而来的人评估了以这种方式自动生成的图片说明，以其他方式生成的说明，以及人工写的图片说明。

结果表明，新系统运转良好，使用PASCAL图片数据库测试，它的表现明显优于其他自动生成的方法，取得了59分，而目前最先进的其他技术只有25分，人工写成的69分。

这个结果已经不错了，并且随着训练数据库规模的增加，表现也会越来越好。显然，这又回到了另一个问题，人类优于机器的日子，是不是屈指可数了？

via mit

转载请注明：好奇网 » 将文学问题变成数学问题，Google的”看图说话“是这样实现的

spring 发表在 CentOS安装Fail2ban之小白攻略2025年4月28日
学习了
爱好奇发表在我们的身体充满“错误”，却让我们成为自己2025年3月17日
前面转载了同一内容的“我们都是基因的马赛…
爱好奇发表在哲学还能解答现代人的困惑吗？2025年2月14日
很有意思的一篇关于哲学的文章，若以前还对…
爱好奇发表在《封神2》崩的越惨，DeepSeek的刀就越锋利2025年2月10日
春节期间讨论封神2和哪吒2的很多，为什么…
爱好奇发表在一场关于DeepSeek的高质量闭门会：比技术更重要的是愿景2025年1月29日
昨天除夕深度求索发布了其多模态模型，可见…
爱好奇发表在自回归模型将死！杨立昆：你们这条路行不通2025年1月15日
虽然是一篇一年前的文章，但放在今天看明显…
爱好奇发表在维系亲密关系的秘诀：《爱的流动》2025年1月10日
看到了网络上热议的关于燕XX离婚事件，这…
爱好奇发表在专访宇树科技王兴兴：在人形机器人的巨变前夜，做一个敏锐的谨慎派2025年1月4日
在人形机器人大热的今天，转载一篇5个月前…
爱好奇发表在走进“麦学”：围观那个疯女人2024年12月12日
从此事件可以学到：不管在哪，都要学习，成…
爱好奇发表在哈佛博士9.3分神作！脑科学解读为什么孩子不爱学习？2024年12月4日
说的虽然与孩子相关，但对大人同样也有启发…

将文学问题变成数学问题，Google的”看图说话“是这样实现的

与本文相关的文章

Hi，您需要填写昵称和邮箱！