最新消息:

解析搜索引擎的关键技术:自然语言处理

好奇 爱 好奇 3487浏览 0评论 来自微信:罗超 | luochaotmt

image

百度在一定程度可以说技术是其根基。中文搜索、知识图谱、大数据、自然语言处理、智能广告等细分技术已成为百度独有优势,所有这些技术的基石又是什么呢?答案或许是 NLP:自然语言处理。

NLP 是搜索引擎的技术之本

搜索引擎最基本的模式是自动化地聚合足够多的「内容」,对之进行解析、处理和组织,响应用户的搜索请求找到对应结果返回。每一个环节,都需要用到自然语言处理。

爬取网页时要分析 HTML 页面以及处理爬取到的网页内容时,需要对起进行解析、分词、变换等,这十分依赖自然语言处理技术。搜索引擎要听懂用户的「人话」,用户的搜索请求又是千奇百怪的,关键词组合的方式越来越少,直接用自然语言搜索已成为不少人的习惯,人们更倾向于搜索「广州到北京的航班信息」而不是「广州 北京 航班」,因此搜索引擎必须理解用户意图才可以帮助其去找到准确答案。

每一个环节自然语言处理都十分重要。这是 NLP 技术致力于解决的问题。自然语言处理(Natural Language Processing:NLP)是计算机科学、人工智能以及语言学的交叉学科,旨在解决计算机与人类语言之间的交互问题,这其中包括对自然语言的分析、理解、生成、检索、变换及翻译等方面。

不只是搜索本身,搜索引擎衍生产品大都会应用到 NLP 技术。譬如百度、Google 均提供的翻译服务就是最经典的自然语言应用,它可以智能化地翻译大段文章,支持多种语言之间的互相翻译。还有百度知道,它可以智能化地识别相似的问题避免用户重复提问。再比如 Siri 掀起的语音助手浪潮最后反而被百度、Google 等搜索玩家抢得先机,就是因为搜索引擎更擅长于 NLP 技术,百度语音助手和 Google Now 在中文和英文语音领域表现都比 Siri 更为突出。

总之,搜索引擎连接人与信息,它要能帮助人们更加高效地获取信息就必须学会像人类一样去读取信息,它要能够理解人们对信息的需求就需要去听懂「人话」,这都注定了 NLP 技术将成为搜索引擎的技术之本。

无处不在的 NLP 让百度更智能

百度从第一天处理用户的第一次搜索开始便开始应用 NLP 技术。十多年来,百度的用户数已经超过 5 亿,百度公司员工规模超过 3 万人,百度市值则逼近 1000 亿美金。伴随着百度的快速发展,百度 NLP 团队在同步地、甚至更快地发展壮大,NLP 技术本身也在发生着剧变,但总的来说,就是它帮助百度变得更加聪明。

2010 年春,国际顶级自然语言处理专家王海峰博士加盟百度后,对百度 NLP 的工作进行了重新梳理与规划,除分词、专名识别、query 需求分析、query 改写等传统方向得到加强外,拓展了机器翻译、机器学习、语义搜索、语义理解、智能交互、深度问答、篇章理解等新的技术方向。现在 NLP 团队已经由当初仅 10 余人发展成为今天超过 200 人规模的团队,操盘手正是王海峰博士。因为理论造诣以及在百度的工程实践成就,王海峰成为自然语言处理领域世界上影响力最大的国际学术组织 ACL(Association for Computational Linguistics)50 多年历史上唯一华人主席。

现在 NLP 团队的技术正应用在百度的方方面面。

搜索引擎是 NLP 技术最大的用武之地。相比当年用户需要学习如何使用搜索引擎而言,今天的用户完全可以直接输入任何想到的需求或者问题,甚至直接通过话筒向百度语音助手提问。譬如用户可以搜「天气」、「日历」、「机票」、「汇率」这样的模糊需求,百度会直接在搜索结果呈现结果。再比如用户可以搜索「5000 港币是多少人民币」百度结果中会直接呈现一个计算器。用户还可以搜索「演过还珠格格的台湾演员」「张柏芝的儿子的爷爷是谁」这样的复杂问题,百度都可以准确地回答。

基于知识图谱技术的「百度知心」同样处处用到 NLP 技术。知识图谱是让搜索引擎结果可以联想出更多相关结构化信息技术,百度结果页面右侧的结构化信息便是知识图谱结果集。举个例子,用户搜索「虎嗅网」搜索引擎右侧便会展示与之相似的其他科技媒体譬如「36kr」。用户搜索』青藏高原』和』小威』的时候,知心右侧都会推荐『李娜』,但前者推荐的是歌唱家李娜,后者推荐的是网球明星李娜,这便是基于 NLP 的实体消歧技术。

深度问答技术则是机遇 NLP 技术和深度学习技术的问答产品。百度出品的智能问答机器人在江苏卫视《芝麻开门》节目中取得了卓越成就,答题准确率远超人类选手,正是得益于百度深厚的知识沉淀以及百度对用户问题的精准理解。不过这项技术并不只是用于比赛,在百度语音助手、百度知道以及百度搜索等产品之中,深度问答技术均被广泛应用,它可以精准理解用户的复杂问题,并且可以结合上下文、结合场景对问题做出不同理解。

例如,当我们在百度中搜索「花生发芽了还能吃吗」,得到的答案已不再是互联网上五花八门的原始网页答案,而是让人一目了然的汇总式答案摘要。除了这样的「一问一答」,用户还可以与百度对话,问它一个又一个问题,NLP 最终可以让用户使用自然语言进行搜索,并且采用多轮交互的方式来逐步澄清和满足需求,从而完成深度决策型的搜索任务。百度 NLP 团队研发的「交互搜索技术」便可以做到多轮问答,而「多模(multi-modal)交互技术」则可以让用户通过文字、语音、图片、LBS 等多种输入形式进行更加人性化、更加简单易用的搜索,未来扩展到通过视频作为输入进行搜索也是有可能的。

深度问答技术还可以应用到许多垂直领域。比如与教育结合的「百度考霸」就成为高中生填报高校志愿的得力助手,它今年一共服务毕业生 550 万次,帮助他们更加高效、简单和全面地了解高校和专业。再比如与医疗健康结合就可以实现寻医问药,我们可以搜索「头疼怎么办」百度便会给出结构化的疑似病症列表甚至用药建议。在「泛需求搜索」上百度可以很好地理解用户的模糊需求,在百度中搜索「家常菜」,搜索引擎将返回的 3 万多种家常菜按照「菜系」、「功效」和「口味」进行归类展现,层次分明、一目了然。

不论是搜索引擎还是知识图谱还是深度问答,最关键的技术点就是 NLP。NLP 做好了还将形成壁垒,因为尽管对手可以做出类似的搜索频道或者子产品,但在智能化、准确性以及易用性上要赶上百度却并不容易。NLP 技术即需要数据积累,在算法的积累、团队的沉淀上都需要时间,后来者很难追平。

NLP 未来对百度会愈发重要

NLP(自然语言处理)技术对百度而言只会更加重要。

搜索引擎的职责已经不单单是帮助用户找到答案,而是帮助用户找到所求,连接人与实体世界的服务,成为用户的智能化助理。无限接近人类的智慧是人类赋予机器的终极目标。对于百度而言,一是要从搜索引擎上升到服务连接平台,二是要大力发展人工智能、大数据、深度学习等面向未来的新兴技术,这些目标均离不开「理解用户需求、智能化地组织信息和服务」,这均十分依赖 NLP 技术。

NLP 技术本身也在升级。从名称来看它是语言处理技术,能够理解文本似乎就够了。实际上现在它要理解的是语言所表征的人类的需求。除了文字之外,语音、图像也是人类需求表达的载体。同时,用户所处的环境(LBS)、用户的个人特征(用户画像)、用户发出请求的时间也会赋予同一个请求不同的目的。因此,NLP 技术在处理用户语言本身的时候,还需要结合上述因素去理解用户背后的需求。看上去 NLP 正在升级成为一项全新的「人类信息识别和需求理解技术」。

技术是百度的基因,技术和数据积累形成的用户、产品和品牌优势是百度的护城河。NLP 则是百度技术的基石,它赋予了百度技术「智能化」的基因,在过去智能化的搜索让百度越来越好用为其在中文搜索市场奠定了王者地位;在未来智能化连接用户与服务成为百度与阿里腾讯等巨头最大的区隔时,NLP 技术只会更加重要。因此毫不夸张地说,NLP 就是百度的技术基石。

转载请注明:好奇网 » 解析搜索引擎的关键技术:自然语言处理

发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址