最新消息:

浅谈Google的搜索引擎与奇妙的信息指纹-读《数学之美》有感

人生 爱 好奇 1945浏览 0评论 来自:李杰的博文

所有的搜索引擎,包括Google搜索引擎,由三部分组成,分别是下载、索引和排序。下载是把世界上所有网页都下载下来,当你搜索关键词的时候,他只需要把你搜集到的含有关键词的网页提取出来而不用先下载再提取。索引指建立快速有效的索引。我们知道,网页数量是难以想象的巨大,比如说在1千亿个网页中,搜索一个关键字“电子商务”,我们可能得花费好几十天的时间,所以我们必须建立快速有效的索引。显而易见,这个过程就类似图书馆找书。至于排序,还是上面的例子,如果我们找到100个关于电子商务的网页,我们有可能把每个网页都浏览到;但通常的搜索得到的是100“页”甚至还更多“页”的网页,我们会看到第1页、第二页……但我们不可能读完100页,能读到第10页就已经相当不错了。因此排序至关重要。

这三部分都是由简单的数学原理作为支撑的。

先说下载:整个互联网可以用“图”来表示,结点代表“网页”、“网站”,弧代表“链接”。比如河北工业大学,你点开网页,还会有很多别的链接,如管理学院、计算机学院……,你点开管理学院,会有各个系,如信管系、电子商务系……。也就是说互联网有很多层次。Google搜索引擎的下载部分应用了数学中“图论”的知识。利用图论的算法,如深度优先遍历、广度优先遍历等,自动访问并下载每