2018年7月

一、简介

Anti-Trust Rank算法经过Trust Rank算法思想而设计出,由作弊的页面开始,向相反的方向传播反信任值(也就是作弊值),目的是检测垃圾页面,然后由搜索引擎过滤。Anti-Trust Rank算法准则大致等同于Trust Rank算法即好的页面很少指向垃圾页面。这个原则其实也暗示了一点,那就是指向垃圾页面的有很大的可能也是垃圾页面。Trust Rank算法从一组可信赖的页面开始,经过外链接将信任值进行传播。同样的,在Anti-Trust Rank算法中,从一组垃圾种子页面开始,通过内链接(即外链接指向这些垃圾页面的网页)反向传播传播反信任值。我们可以设置一个阀值如果页面的反信任值高于这个阀值,就可归类为作弊网页。

二、公式使用

对于Anti-Trust Rank算法来说,我们首先要做的是选取种子页面,注意与Trust Rank算法不同的是,Anti-Trust Rank算法选取的是作弊网页作为种子页面。

Anti-Trust Rank算法的计算公式为:
QQ20180713152017

其中α为衰减因子取值一般为0.80或0.85,关系矩阵U的计算公式如下:20180713155309
初始值A的公式为:QQ20180713160409
初始值d的公式为: QQ20180713160529

三、算法示例

我们首先设计一个网站链接关系图,圆代表不同的网站或网页,圆之间的箭头代表网站之间的链接关系:201807131610

QQ20180713161045

注意,此时的U与Trust Rank算法中的T是不同的,然后按照公式迭代,不断更新A的值。

下面解释下TrustRank算法

一、简介

搜索引擎在使用Page Rank算法计算网页排名的时候,非常依赖网络页面之间的链接关系,因此,链接的质量计算排名变得越来越重要。但是,有些网页采用作弊的行为来提升自己的排名,因此,一个良好的检测作弊网页的算法变得越来越重要。Google为了提高网站的检索质量,设计出了TrustRank算法来检测垃圾作弊网站。

Trust Rank算法基于了一个重要的观察的经验:好的页面很少指向坏的页面。这个概念是相当直观的,作弊页面是为了误导搜索引擎而被建立的,不能提供有效地信息。因此,人们创建可信赖的页面很少有原因指向作弊页面。

这个假设的发过来说是不成立的,即坏的页面很少指向好的页面,因为作弊网页为了提高网页的信任指数,通常会链接到许多的高质量的、权威的网站。

基于以上假设,挑选完全可以信赖的网站,将网站的TrustRank值设为最高,通过迭代运算将可信任值传播出去。也有一些可信赖的网站被欺骗链接到作弊网站,不过距离第一级网站越远信任值指数便会逐渐下降。这样通过TrustRank算法就可以对所有网站计算相应的信任值,信任孩子越高的网站可信赖信就越大。

二、公式实现

对于TrustRank算法来说,我们需要首先选取种子页面(即完全可以信赖的页面),然后在进行Trust Rank算法的计算。

TrustRank算法计算公式为:

20180706202113

其中α为衰减因子一般取值为0.80或0.85关系矩阵T的计算公式如下:QQ20180706202310

初始值r的公式为:

QQ20180706202428

d的公式为:

20180706202612

三、算法示例

我们首先设计一个网站链接关系图,圆代表不同的网站或网页,圆之间的箭头代表网站之间的链接关系:

201807062028

QQ20180706203132

然后依据以上公式迭代20次每次更新r值。