下面解释下TrustRank算法

一、简介

搜索引擎在使用Page Rank算法计算网页排名的时候,非常依赖网络页面之间的链接关系,因此,链接的质量计算排名变得越来越重要。但是,有些网页采用作弊的行为来提升自己的排名,因此,一个良好的检测作弊网页的算法变得越来越重要。Google为了提高网站的检索质量,设计出了TrustRank算法来检测垃圾作弊网站。

Trust Rank算法基于了一个重要的观察的经验:好的页面很少指向坏的页面。这个概念是相当直观的,作弊页面是为了误导搜索引擎而被建立的,不能提供有效地信息。因此,人们创建可信赖的页面很少有原因指向作弊页面。

这个假设的发过来说是不成立的,即坏的页面很少指向好的页面,因为作弊网页为了提高网页的信任指数,通常会链接到许多的高质量的、权威的网站。

基于以上假设,挑选完全可以信赖的网站,将网站的TrustRank值设为最高,通过迭代运算将可信任值传播出去。也有一些可信赖的网站被欺骗链接到作弊网站,不过距离第一级网站越远信任值指数便会逐渐下降。这样通过TrustRank算法就可以对所有网站计算相应的信任值,信任孩子越高的网站可信赖信就越大。

二、公式实现

对于TrustRank算法来说,我们需要首先选取种子页面(即完全可以信赖的页面),然后在进行Trust Rank算法的计算。

TrustRank算法计算公式为:

20180706202113

其中α为衰减因子一般取值为0.80或0.85关系矩阵T的计算公式如下:QQ20180706202310

初始值r的公式为:

QQ20180706202428

d的公式为:

20180706202612

三、算法示例

我们首先设计一个网站链接关系图,圆代表不同的网站或网页,圆之间的箭头代表网站之间的链接关系:

201807062028

QQ20180706203132

然后依据以上公式迭代20次每次更新r值。

标签: none

评论已关闭