Google凭借其先进的排序机制已成为目前使用最为广泛的搜索引擎之一。Google搜索引擎使用PageRank算法来进行网页的排名,该算法最早出现在其创始人的一篇论文中,利用页面相关性得分(RelevancyScore)+页面等级得分(PageRank)来决定页面的相关性与重要性。该算法首先找到所有与查询关键词相匹配的网页,然后根据页面因素等进行排名,最后通过PageRank得分调整网站排名结果。
在计算某个页面PageRank值时,所有的入链接都要考虑在内。页面A的PageRank值计算公式如下:PR(A)=(1一)+PR(T)/c(T)+PR(Ti)/c(Ti)
其中:PR(A)表示网页A的PageRank值;PR(Ti)表示链接到A的网页T的PageRank值;C(Ti)表示网页丁I的出站链接数量;d为阻尼系数,0<<1(Google通常取值0.85)。
由上面公式可知,PageRank并不是将整个网站排等级,而是以单个页面计算的。其次,页面A的PageRank值取决于其他的相关页面,所以计算PageRank值实际上是一个迭代的过程,计算结果的精确程度取决于初值的选取和迭代的次数。对于初值一般取1,而为了保证实际应用中的这个结果总是收敛的,则加入了阻尼系数d_n。
|