无人深空初期拆卸飞船:搜索引擎的工作方式

来源：百度文库编辑：杭州交通信息网时间：2024/04/29 05:05:43

同上

其实google平时就是靠bot这种程序，通过一个连接开始在网络上爬行，带回来一些相关数据，随后给每个网站算出不同的评分，当你搜索某个结果是，会在很短速度内计算出你要的结果，按照相关性原则把结果显示给你

再给你讲个有名的技术

最著名的并且获得了专利的当然就是google的PR技术

大家可能听说过，Google 革命性的发明是它名为 “Page Rank” 的网页排名算法，这项技术彻底解决了搜索结果排序的问题。其实最先试图给互联网上的众多网站排序的并不是 Google。Yahoo！公司最初第一个用目录分类的方式让用户通过互联网检索信息，但由于当时计算机容量和速度的限制，当时的 Yahoo！和同时代的其它搜索引擎都存在一个共同的问题：收录的网页太少，而且只能对网页中常见内容相关的实际用词进行索引。那时，用户很难找到很相关信息。我记得 1999 年以前查找一篇论文，要换好几个搜索引擎。后来 DEC 公司开发了 AltaVista 搜索引擎，只用一台 ALPHA 服务器，却收录了比以往引擎都多的网页，而且对里面的每个词进行索引。AltaVista 虽然让用户搜索到大量结果，但大部分结果却与查询不太相关，有时找想看的网页需要翻好几页。所以最初的 AltaVista 在一定程度上解决了覆盖率的问题，但不能很好地对结果进行排序。

Google 的 “Page Rank” （网页排名）是怎么回事呢？其实简单说就是民主表决。打个比方，假如我们要找李开复博士，有一百个人举手说自己是李开复。那么谁是真的呢？也许有好几个真的，但即使如此谁又是大家真正想找的呢？:-)如果大家都说在 Google 公司的那个是真的，那么他就是真的。

在互联网上，如果一个网页被很多其它很多网页所链接，说明它受到普遍的承认和信赖，那么它的排名就高。这就是Page Rank 的核心思想。当然 Google 的 Page Rank 算法实际上要复杂得多。比如说，对来自不同网页的链接对待不同，本身网页排名高的链接更可靠，于是给这些链接予较大的权重。Page Rank 考虑了这个因素，可是现在问题又来了，计算搜索结果的网页排名过程中需要用到本身网页的排名，这不成了先有鸡还是先有蛋的问题了吗？

Google 的两个创始人拉里•佩奇（Larry Page ）和谢尔盖•布林 (Sergey Brin) 把这个问题变成了一个二维矩阵相乘的问题，并且用迭代的方法解决了这个问题。他们先假定所有网页的排名是相同的，并且根据这个初始值，算出各个网页的第一次迭代排名，然后再根据第一次迭代排名算出第二次的排名。他们两人从理论上证明了不论初始值如何选取，这种算法都保证了网页排名的估计值能收敛到他们的真实值。值得一提的事，这种算法是完全没有任何人工干预的。

理论问题解决了，又遇到实际问题。因为互联网上网页的数量是巨大的，上面提到的二维矩阵从理论上讲有网页数目平方之多个元素。如果我们假定有十亿个网页，那么这个矩阵就有一百亿亿个元素。这样大的矩阵相乘，计算量是非常大的。拉里和谢尔盖两人利用稀疏矩阵计算的技巧，大大的简化了计算量，并实现了这个网页排名算法。今天 Google 的工程师把这个算法移植到并行的计算机中，进一步缩短了计算时间，使网页更新的周期比以前短了许多。

我来 Google 后，拉里 (Larry) 在和我们几个新员工座谈时，讲起他当年和谢尔盖(Sergey) 是怎么想到网页排名算法的。他说："当时我们觉得整个互联网就像一张大的图（Graph)，每个网站就像一个节点，而每个网页的链接就像一个弧。我想，互联网可以用一个图或者矩阵描述，我也许可以在用这个发现做个博士论文。" 他和谢尔盖就这样发明了 Page Rank 的算法。

网页排名的高明之处在于它把整个互联网当作了一个整体对待。它无意识中符合了系统论的观点。相比之下，以前的信息检索大多把每一个网页当作独立的个体对待，很多人当初只注意了网页内容和查询语句的相关性，忽略了网页之间的关系。

今天，Google 搜索引擎比最初的复杂、完善了许多。但是网页排名在 Google 所有算法中依然是至关重要的。在学术界, 这个算法被公认为是文献检索中最大的贡献之一，并且被很多大学引入了信息检索课程 (Information Retrieval) 的教程。

这个问题可就过于复杂，不是一句两句说的清楚地
不过你可以参看百度的搜索定律

第一定律
相关性定律：情报检索、信息检索或全文检索的相关性都是基于词频统计的。当用户输入检索词时，搜索引擎去找那些检索词在文章(网页)
中出现频率较高的，位置较重要的，再加上一些对检索词本身常用程度的加权，最后排出一个结果来(检索结果页面) 。
第二定律
人气质量定律：科学引文索引机制的思路移植到网上就是谁的网页被链接次数多，那个网页就被认为是质量高，人气旺的。在加上相应的链接文字分析，就可以用在搜索结果的排序上了。根据这一定律，搜索结果的相关性排序，并不完全依赖于词频统计，而是更多地依赖于超链分析。这条定律也成为李彦宏申请的美国专利。

第三定律自信心定律：
根据这一定律，搜索结果的相关性排序，除了词频统计和超链分析之外，更注重的是竞价拍卖。谁对自己的网站有信心，谁就排在前面。有信心的表现就是愿意为这个排名付钱。自信心定律一改过去搜索引擎靠CPM收钱的尴尬局面，开创了真正属于互联网的收费模式。

搜索引擎的工作方式搜索引擎的工作原理搜索引擎的工作原理是什么？搜索引擎是如何工作的？搜索引擎是怎么工作的搜索引擎是如何工作的？搜索引擎是怎么工作的? 搜索引擎的工作原理是什么搜索引擎的工作原理是什么？百度搜索引擎的工作原理是什么？