HITS,TrustRunk,PageRunk,HillTop算法是什么意思?对SEO有什么指导意义?
TrustRank算法TrustRank算法最初来自于2004年斯坦福大学和雅虎的一项联合研究,旨在检测垃圾网站,并于2006年申请了专利。TrustRank算法的发明者还公布了一个专门的PDF文件来说明TrustRank算法的应用。有兴趣的读者可在以下网站下载PDF文件:
TrustRank算法并不是Google提出来的,但是因为Google的市场份额最大,TrustRank也是Google排名非常重要的因素,所以有人误以为TrustRank是Google提出来的。更令人困惑的是,谷歌曾经申请TrustRank作为商标,但TrustRank商标中的TrustRank指的是谷歌检测包含恶意代码的网站的方法,而不是排名算法中的trustrank。
基于这样的假设,如果我们能选出100%可信的网站,这些网站的TrustRank最高,这些trustrank最高的网站连接的网站trustrank略低,但也会高。同样,二级可信网站链接的三级网站的信任度持续下降。由于种种原因,好的网站难免会收到一些垃圾网站。但是,离一级网站的点击距离越近,trustrank就会越高,离一级网站的点击距离越远,trustrank就会越低。这样trustrank算法就可以为所有网站计算出对应的trustrank,离一级网站越远,成为垃圾网络的可能性越大。
PageRankPageRank,即网页排名,是Google用来识别网页排名或重要性的算法。
最早的搜索引擎采用的是目录分类的方法,即人工对网页进行分类,整理出高质量的网站。
随着网页数量的急剧增加,这种方法显然是不可能实现的。由此,搜索引擎进入了文本检索时代,即通过计算用户的查询语句与网页内容的相关度,返回搜索结果。比如将输入的搜索词和文件通过向量空间模型转换成向量,通过计算两个向量之间夹角的偏差程度(一般使用余弦距离)来衡量相关性。这种方法虽然可以处理大量的网页,但是效果并不是很好,比如有一些作弊行为:一些网页反复的转储某些关键词来使自己的搜索排名靠前。
于是,当时还是美国斯坦福大学研究生的谷歌两位创始人拉里·佩奇和谢尔盖·布林开始研究网页的排名。受学术论文重要性的评价方法(引用次数)的启发,他们提出了PageRank算法。
PageRank的核心思想其实很简单,可以总结如下:
如果一个网页被很多其他网页链接,说明这个网页很重要,它的PageRank值也会相应高一些。
如果具有高PageRank值的页面链接到另一个页面,则该页面的PageRank值将相应增加。
HillTop算法HillTop是搜索引擎结果排名的专利,由谷歌的工程师Bharat于2001获得。Google的排序规则是不断变化的,但变化最大的是基于HillTop算法的优化。