分类 百度算法 下的文章

黑帽SEO手法(四):关键词堆砌

关键词堆砌 

关键词堆砌(keyword stuffing) 在网页中大量堆砌关键词,希望提高关键词密度,提高网页针对关键词的相关度。关键词堆砌可以在很多地方,比如在用户可以看到的文字本身中,也可能是在标题标签TitleTag,关键词标签,说明标签中。随着搜索引擎算法的改进,关键词密度已经不是一个重要的因素。

简介

关键字堆砌是黑帽seo方法中的一种,英文称Keyword Stuffing,通过在网页中大量重复关键词,提高关键词的密度,达到提高关键词排名的效果。这类网页看起来更像是一连串的关键字,而不像是别的什么东西。关键词堆砌的另一形式就是将关键字或关键词尽可能多次的填入页面的 title标签中。搜索引擎通常会降低这类网页的搜索排名,或者完全忽略这些关键字。这两种结果对网站都没有什么好处。关键字堆砌的桥页(doorway pages)或隐形页面(cloaked pages)不仅是过度使用关键字的例子,而且还是因自身原因而受到惩罚的因素。在所有导入链接(inbound links)中频繁使用相同的链接锚文本,也会被看作是关键词堆砌的一种形式。

标题

众所周知,标题是SEO中比较重要的一个部分,很多人将大量的关键词都堆砌在标题中,例如“SEO-seo培训-SEO服务-SEO优化-seo顾问-SEO教程-SEO排名”,这种写法算是堆砌的比较轻微的,有的人甚至会堆砌几十个类似的关键词,如果将这种文字都放入标题中,则就形成了对SEO这个词的堆砌。建议标题中相同关键词出现的次数最多不要超过3次。

网页
大家也许知道,关键词的密度直接影响了这个关键词在搜索引擎中的排名,关键词密度越高,则说明这个关键词在该网页中的重要性越大,所以SEO行业内有个名词叫做“关键词布局”,但是黑帽seo人员,他们并不懂得如何进行关键词布局,只为了提高关键词的密度,而在网页中将关键词乱堆一气。

隐藏
通过隐藏代码、让文字颜色和背景色一样、字体的大小为1像素等方式让用户无法看到关键词,可是搜索引擎能看到,来达到既增加关键词的密度,又保证了网站的美观的效果。

引擎识别
搜索引擎和搜索引擎优化(SEO)一直是一对矛盾,合理的优化有助于搜索引擎对网站内容的识别,有助于网站的推广。然而有正面,就有反面,一些SEOer通过各种欺骗手段来欺骗搜索引擎,以期达到增加页面收录数和页面排名的目的。

作弊目的
早期的关键字堆砌SPAM作弊方式之一,是将中文词库中的单词直接用软件拼凑成文章,这样的文章没有实际的意义,只能给搜索引擎看。那么对于这样的文章,搜索引擎是通过什么方式来识别的呢?

我们知道,每个搜索引擎都有网页质量监控部门,对于百度等掺杂人工处理的搜索引擎而言,用户发现这样的网站,投诉到百度,百度直接封了这个网站了事。但对于Google这样的封站也是自动处理的搜索引擎而言,对关键字堆砌作弊的识别就显得更为重要了。

统计识别


对于关键字堆砌作弊方式的识别,搜索引擎一般采用统计分析的方法进行。
搜索引擎首先将网页进行分词,分词完成后可以得到词的数量N和文章长度L,从大量文章的统计中发现文章的长度L和词的数量N两个数字之间存在一定的分布关系,一般而言L/N界于4至8之间,均值大约在5-6之间。也就是说一篇长度为1000字节的文章中,应该有125-250个分词,由于中文和英文的词的组成不一致,因此在英文和中文中这个比值的范围会有所不同。如果搜索引擎发现L/N特别大,那么这篇文章就存在关键字堆砌现象了,如果L/N特别小,则可能是这篇文章是由一些词所组成的没有意义的文章。
进一步,通过大量正常文章统计发现,文章中密度最高的几个关键字出现的次数之和与N/L存在一定的分布关系,搜索引擎就可以通过网页中的分布与统计结果的分布图进行比较得出文章是否存在关键字堆砌的现象。

质量监控
此外,搜索引擎还将从停止字的比例来判定文章是否为自然文章。停止字就是如“的”“我”“是”等在文章中普遍使用的字或词,如果文章中停止字的比例在正常的比例范围之外,这个网页应提交到网页质量监控部门审核。

常见问题解答
1、关键词堆砌容易k站吗?
答复:一般来说,关键词堆砌比较多的是降权重,k站的可能性不大,除非是做了其他的作弊行为或者站点没有用户体验才会k站的,仅仅关键词堆砌一般不容易k站的。

2、一般关键词堆砌多少密度才不算堆砌呢?
答复:这个没有具体的标准,一般来说只要我们网站围绕用户体验来进行运营,即使关键词密度达到10个点也不算是关键词堆砌的,所以只要我们不要非常的刻意堆砌关键词,那么都是ok的。

3、搜索引擎对关键字堆砌如何来判断呢?
答复:搜索引擎排版关键词堆砌是从综合性的方法来进行判断的,除了采用统计分析的方法进行,还会通过用户的跳转率、用户访问行为等方面判断,统计分析的方法就是搜索引擎将一篇文章进行词语数量的统计,专业点称为“分词”,也就是“L/N”的概念,N代表得到词的数量,L代表文章长度,2者相除就有搜索引擎数据统计中的密度了。通过统计分析肯定不能完全的判断,搜索引擎分析用户的访问行为、跳转率、浏览时间,浏览页面数等都是一个参考的,所以搜索引擎的对此的算法还是非常复杂的。

4、有看到一些网站有做关键词堆砌的行为,但是用百度百科没有k也没有降权,而且关键词排名老好了?
答复:关键词堆砌是黑帽seo行为,这是肯定的,如今的百度搜索引擎算法并不是直接能看的出来,百度对于网站的考察也不可能短期就下定论给你降权或者k站,但是长时间采用这种手法一定会降权的,黑帽seo往往只能保持短期排名,所以这方面大家不要抱着侥幸心理。


5、关键词布局一般在哪几个地方?
如Meta标签、alt、正文内容、footer等

6、举个例子说明关键词堆砌?
如:title为 北京装修_北京装修网_北京装修公司_北京装修队 这种是比较轻微关键词堆砌
title为 北京装修_北京装修_北京装修_北京装修 这是严重的关键词堆砌

7、外链关键词堆砌也算堆砌?
外链关键词堆砌就是所有的外链锚文本都是相同的关键词,利用大量重复关键词,来提高网页相关性的行为。比如做济南SEO
所有的锚文本都是济南SEO

如何利用外链堆砌,其实说白了,外链堆砌就是GOOGLE轰炸,说的有点不同,GOOGLE轰炸是目标page主题和锚不相关,而外链关键词堆砌是相同。

启发:

1、在一定阀值内、关键词密度越高,越相关,排名越好。

同样是关键词堆砌,但是排名就挺好,指数700+

2、做外链时,不要用同一锚文本。对于相提高排名的keywords,可以多加锚文本,但不要全部。

黑帽SEO手法(三):链接农场

链接养殖场通常来者不拒,而且这些被搜集的网站通常是互不相关的。
链接农场是一种被搜索引擎禁止的作弊方式,在正规的SEO中不论制作或者介入链接工厂,都会受到惩罚。

举例说明:
某站长建立几十个甚至上百个简单的网站(很垃圾的网站),只做几个关键词(如:seo论坛,seo优化,seo基础),网站没有任何的可用信息和有效信息,只是通过互相建立友情链接,就能马上可以短期内排到百度搜索的首页,提高网站的权重,从而霸占市场,短期内获得高额利润。这个技术叫做linkfarm,属于黑帽技术,这些快速上升的网站也属于链接养殖场,短期内欺骗百度蜘蛛,当百度蜘蛛知悉后,站点基本也就被k了!

特点
1.链接农场中存在成百上千的Incoming/Inbound Links(导入链接),而且在死亡之前会不断增加。
2.链接农场是双向链接。外部链接链接到农场网站,农场网站链接到外部网站。
3.被链接农场链接的网站杂乱无章,没有类目和权重的要求。
4.被链接农场链接的网站在Google搜索时,会在类似结果中出现乱七八糟的不相关网址。
5.链接农场有自助或手动的添加链接方式。

危害
(1)链接农场中的链接在权重计算中不予考虑。
(2)链接农场链接页面中的权重被降低。
(3)链接农场中链接页面本身的重要性被降低。
(4)链接农场中的页面导出链接重要性被降低。
(5)链接农场中链接页面关键词对用户来说毫无意义,被搜索引擎认为作弊。

链接养殖场(Link Farm)与网址导航区别编辑
网址导航一般不会要求与你交换链接,即不会要求你网站有他们的链接;而链接养殖场是双向链接,因此如果链接养殖场网站或网页单方面指向你的站点,则对你并没有任何影响。

运用:
1、现在的站群,包括黑豹站群或是市面上主流的站群,都在利用链接农场。
2、自己养一批站,然后导入链接注意一些基本OK
3、大多数的链接工厂,一般都是同类型网站、同IP网站相互之间的链接,或是IP的C段相同,这样很容易被K,思路来了,比如做100个站,可以同时租几个机器,IP段不同,然后10个站一个IP,这样,相互再换链接,被K的机率就小很多。
4、同类型、不同IP之间,应该没事,比如都是地方新闻网。

黑帽SEO手法(二):桥页

桥页(doorway pages)
桥页也叫:门页、跳页、过渡页,通常是用软件自动生成大量包含关键词的网页,然后从这些网页做自动转向到主页。目的是希望这些以不同关键词为目标的桥页在搜索引擎中得到好的排名。当用户点击搜索结果的时候,会自动转到主页。有的时候是在桥页上放上一个通往主页的链接,而不自动转向。大部分情况下,这些桥页都是由软件生成的。你可以想象,生成的文字是杂乱无章,没有什么逻辑的。如果是由人写出来的真正包含关键词的文章,就不是桥页了。

所谓的桥页也叫过渡页,是指一个页面打开之后会自动(或手动)转向到别的页面。(注意:这种方法在baidu里面可以使用,但不要用在google里!),我们来看一个html格式的桥页的全部代码:
<html>
<head>
<meta name="keywords" content="商品001">
<title>商品001</title>
<meta http-equiv="refresh" content="0;
url=http://www.lankous·com">
</head>
<body>
</body>
</html>
这个页面打开后会在0秒(由content="0定义时间)内转向到目标网页(由meta标签中的url=">定义转向的站点),所以大家只要稍加修改,就可以变成你自己的桥页了。我们为我们的所有商品都建立一个这样的页面,每一个页面里都依次按照我们的商品设置不同的关键字,然后依次把这些页面上传到你的目录,比如为上传后的地址为:......那么我们再依次把这些地址一一的提交给搜索引擎,这样,当搜索引擎搜索到这些桥页并被用户打开后,会马上转入到你指定的主页。这样的话你的这些产品被搜索到的机会是不是就大大提高了?
对于桥页的建立,关键是还是关键字要选择好,就拿上面那个手机网站的例子来说,我们要依次为每一个关键字都要做一个单独的桥页,关键字要尽量的全。再有,一个关键字我们也完全可以做多个内容完全相同但名字一定要不相同的桥页,并一一的提交给搜索引擎来增加被搜索到的机率。

它针对搜索引擎而作,通过根据特定的搜索词制作一些页面获得较好的排名,引导用户进入主站。有的时候是根据搜索引擎算法制作页面,迎合搜索引擎算法获得好的排名。但不管是那一种,它实际上都属于一种seo作弊行为。

桥页跳转方式:

1、自动跳转,就像上面讲的,利用自动跳转代码,直接跳转到目标页,优点:用户不知道跳转到了其他页,比较信任。缺点:容易被搜索引擎发现。
2、手动跳转,在桥页上制作蓝色显眼链接,引导用户。优点:不容易被搜索引擎发现,缺点:用户信任度降低。





黑帽SEO手法(一):斗篷法

1、斗篷法(Cloaking)



为什么叫斗篷法呢?可能是因为只能看到斗篷,而不能看到真面目的意思吧!

斗篷法指站长将一个网页用两个不同版本的页面,一个版本给搜索引擎看,一个版本给用户浏览。而搜索引擎只能看到斗篷。



如果用户访问,那返回的可能是一个高大上的页面,如果是搜索引擎访问,返回的可能是一个适合优化的页面。



斗篷法基本用在灰色行业或是黑色行业中。



举个例子来讲,我们百度搜索:太阳城娱乐这个词



可以看到下面这个链接:







快照如下:







大家看这个是一个丑的页面。



然后再点击打开网站,界面如下:







斗篷法看到完毕!




































Hilltop算法学习及实战感悟

   Hilltop算法是由Krishna Baharat 在2000年左右研究的,于2001年申请专利,但是有很多人以为Hilltop算法是由谷歌研究的。只不过是Krishna Baharat 后来加入了Google成为了一名核心工程师,然后授权给Google使用的。 

        在与PageRank算法相比之下,Google意识到这个算法的进步会为他们的搜索排名带来非常重要的功能。Google的HillTop算法现在已经能更好的与旧的算法(PR算法)联合起来工作。根据观察HillTop算法比起它在2000年刚设计的时候已经有了很大的进步。显然这也是2003年11月16日“佛罗里达”更新中影响的一个最主要的算法。     

       

1. Hilltop算法基本思想

       Hilltop融合了HITS和PageRank两个算法的基本思想:

       一方面,Hilltop是与用户查询请求相关的链接分析算法,吸收了HITS算法根据用户查询获得高质量相关网页子集的思想,即主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高.符合“子集传播模型”,是该模型的一个具体实例;

      另一方面,在权值传播过程中,Hilltop也采纳了PageRank的基本指导思想,即通过页面入链的数量和质量来确定搜索结果的排序权重。

 

2. Hilltop算法的一些基本定义

  非从属组织页面   

    “非从属组织页面”(Non-affiliated Pages)是Hilltop算法的一个很重要的定义。要了解什么是非从属组织页面,先要搞明白什么是“从属组织网站”,所谓“从属组织网站”,即不同的网站属于同一机构或者其拥有者有密切关联。具体而言,满足如下任意一条判断规则的网站会被认为是从属网站:

      条件1:主机IP地址的前三个子网段相同,比如:IP地址分别为159.226.138.127和159.226.138.234的两个网站会被认为是从属网站。

      条件2:如果网站域名中的主域名相同,比如:www.ibm.com和www.ibm.com.cn会被认为是从属组织网站。 

     “非从属组织页面”的含义是:如果两个页面不属于从属网站,则为非从属组织页面。图6-22是相关示意图,从图中可以看出,页面2和页面3同属于IBM的网页,所以是“从属组织页面”,而页面1和页面5、页面3和页面6都是“非从属组织页面”。由此也可看出,“非从属组织页面”代表的是页面的一种关系,单个一个页面是无所谓从属或者非从属组织页面的。

     

                           图6-22 “从属组织页面”与“非从属组织页面”

专家页面:

      “专家页面”(Export Sources)是Hilltop算法的另外一个重要定义。所谓“专家页面”,即与某个主题相关的高质量页面,同时需要满足以下要求:这些页面的链接所指向的页面相互之间都是“非从属组织页面”,且这些被指向的页面大多数是与“专家页面”主题相近的。

目标页面集合:

     Hilltop算法将互联网页面划分为两类子集合,最重要的子集合是由专家页面构成的互联网页面子集,不在这个子集里的剩下的互联网页面作为另外一个集合,这个集合称作“目标页面集合”(Target Web Servers)。

 

3. Hilltop算法

     图6-23是Hilltop算法的整体流程示意。

     1) 建立专家页面索引:首先从海量的互联网网页中通过一定规则筛选出“专家页面”子集合,并单独为这个页面集合建立索引。

     2)用户查询: Hilltop在接收到用户发出的某个查询请求时:

      首先) 根据用户查询的主题,从“专家页面”子集合中找出部分相关性最强的“专家页面”,并对每个专家页面计算相关性得分,

       然后)根据“目标页面”和这些“专家页面”的链接关系来对目标页面进行排序。基本思路遵循PageRank算法的链接数量假设和质量原则,将专家页面的得分通过链接关系传递给目标页面,并以此分数作为目标页面与用户查询相关性的排序得分。

       最后) 系统整合相关专家页面和得分较高的目标页面作为搜索结果返回给用户。

                             

                                                            图6-23 Hilltop算法流程

      若在上述过程中,Hilltop无法得到一个足够大的专家页面集合,则返回搜索结果为空。由此可以看出,Hilltop算法更注重搜索结果的精度和准确性,不太考虑搜索结果是否足够多或者对大多数用户查询是否都有相应的搜索结果,所以很多用户发出的查询的搜索结果为空。这意味着Hilltop可以与某个排序算法相结合,以提高排序准确性,但并不适合作为一个独立的网页排序算法来使用。

4. Hilltop算法流程

      从上述整体流程描述可看出,Hilltop算法主要包含两个步骤:专家页面搜索及目标页面排序。

步骤一:专家页面搜索

         Hilltop算法从1亿4千万网页中,通过计算筛选出250万规模的互联网页面作为“专家页面”集合。“专家页面”的选择标准相对宽松,同时满足以下两个条件的页面即可进入“专家页面”集合:

         条件1:页面至少包含k个出链,这里的数量k可人为指定;

         条件2:k个出链指向的所有页面相互之间的关系都符合“非从属组织页面”的要求;

       当然,在此基础上,可以设定更严格的筛选条件,比如要求这些“专家页面”所包含链接指向的页面中,大部分所涉及的主题和专家页面的主题必须是一致或近似的。

       根据以上条件筛选出“专家页面”后,即可对“专家页面”单独建索引,在此过程中,索引系统只对页面中的“关键片段”(Key Phrase)进行索引。所谓“关键片段”,在Hilltop算法里包含了网页的三类信息:网页标题、H1标签内文字和URL锚文字。

       网页的“关键片段”可以支配(Qualify)某个区域内包含的所有链接,“支配”关系代表了一种管辖范围,不同的“关键片段”支配链接的区域范围不同,具体而言:

       页面标题可以支配页面内所有出现的链接,

       H1标签可以支配包围在<H1>和</H1>内的所有链接,

       URL锚文字只能支配本身唯一的链接。

       图6-24给出了“关键片段”对链接支配关系的示意图,在以“奥巴马访问中国”为标题的网页页面中,标题支配了所有这个页面出现的链接,而H1标签的管辖范围仅限于标签范围内出现的2个链接,对于锚文字“中国领导人”来说,其唯一能够支配的就是本身的这个链接。之所以定义这种支配关系,对于第二阶段将“专家页面”的分值传递到“目标页面”时候会起作用。

                             

                                 图6-24 “关键片段”链接支配关系

        系统接收到用户查询Q,假设用户查询包含了多个单词,Hilltop如何对“专家页面”进行打分呢?对“专家页面”进行打分主要参考以下三类信息:

         1)“关键片段”包含了多少查询词,包含查询词越多,则分值越高,如果不包含任何查询词,则该“关键片段”不计分;

         2)“关键片段”本身的类型信息,网页标题权值最高,H1标签次之,再次是链接锚文字;

         3)用户查询和“关键片段”的失配率,即“关键片段”中不属于查询词的单词个数占“关键片段”总单词个数,这个值越小越好,越大则得分衰减越多;

       Hilltop综合考虑以上三类因素,拟合出打分函数来对“专家页面”是否与用户查询相关进行打分,选出相关性分值足够高的“专家页面”,以进行下一步骤操作,即对“目标页面”进行相关性计算。

步骤二:目标页面排序

       Hilltop算法包含一个基本假设,即认为一个“目标页面”如果是满足用户查询的高质量搜索结果,其充分必要条件是该“目标页面”有高质量“专家页面”链接指向。然而,这个假设并不总是成立,比如有的“专家页面”的链接所指向的“目标页面”可能与用户查询并非密切相关。所以,Hilltop算法在这个阶段需要对“专家页面”的出链仔细进行甄别,以保证选出那些和查询密切相关的目标页面。

      Hilltop在本阶段是基于“专家页面”和“目标页面”之间的链接关系来进行的,在此基础上,将“专家页面”的得分传递给有链接关系的“目标页面”。传递分值之前,首先需要对链接关系进行整理,能够获得“专家页面”分值的“目标页面”需要满足以下两点要求:

     条件1:至少需要两个“专家页面”有链接指向“目标页面”,而且这两个专家页面不能是“从属组织页面”,即不能来自同一网站或相关网站。如果是“从属组织页面”,则只能保留一个链接,抛弃权值低的那个链接;

     条件2:“专家页面”和所指向的“目标页面”也需要符合一定要求,即这两个页面也不能是“从属组织页面”;

      在步骤一,给定用户查询,Hilltop算法已经获得相关的“专家页面”及其与查询的相关度得分,在此基础上,如何对“目标页面”的相关性打分?上面列出的条件1指出,能够获得传递分值的“目标页面”一定有多个“专家页面”链接指向,所以“目标页面”所获得的总传播分值是每个有链接指向的“专家页面”所传递分值之和。而计算其中某个“专家页面”传递给“目标页面”权值的时候是这么计算的:

        a. 找到“专家页面” 中那些能够支配目标页面的“关键片段”集合S;

        b. 统计S中包含用户查询词的“关键片段”个数T,T越大传递的权值越大;

        c.“专家页面”传递给“目标页面”的分值为:E*T,E为专家页面本身在第一阶段计算得到的相关得分,T为b步骤计算的分值,

     我们以图6-25的具体例子来说明。假设“专家页面”集合内存在一个网页P,其标题为:“奥巴马访问中国”,网页内容由一段<H1>标签文字和另外一个单独的链接锚文字组成。该页面包含三个出链,其中两个指向“目标页面集合”中的网页www.china.org,另外一个指向网页www.obama.org。出链对应的锚文字分别为:“奥巴马”,“中国”和“中国领导人”。

                        

                   

                                                          图6-25 Hilltop算法分值传递

       从图示的链接关系可以看出,网页P中能够支配www.china.org这个目标页面的“关键片段”集合包括:{中国领导人,中国,<H1>奥巴马访问中国</H1>,标题:奥巴马访问中国}。而能够支配www.obamba.org目标页面的“关键片段”集合包括:{奥巴马,<H1>奥巴马访问中国</H1>,标题:奥巴马访问中国}。

      接下来我们分析“专家页面”P在接收到查询时,是怎样将分值传递给与其有链接关系的“目标页面”的。假设系统接收到的查询请求为“奥巴马”,在接收到查询后,系统首先根据上述章节所述,找出“专家页面”并给予分值,而网页P是作为“专家页面”其中一个页面,并获得了相应的分值S,我们重点关注分值传播步骤。

     对于查询“奥巴马”来说,网页P中包含这个查询词的“关键片段”集合为:{奥巴马,<H1>奥巴马访问中国</H1>,标题:奥巴马访问中国},如上所述,这三个“关键片段”都能够支配www.obama.org页面,所以网页P传递给www.obamba.org的分值为S*3。而对于目标页面www.china.org来说,这三个“关键片段”中只有{<H1>奥巴马访问中国</H1>,标题:奥巴马访问中国}这两个能够支配目标页面,所以网页P传递给www.china.org的分值为S*2。

    对于包含多个查询词的用户请求,则每个查询词单独如上计算,将多个查询词的传递分值累加即可。

5. Hilltop在应用中不足

      专家页面的搜索和确定对算法起关键作用,专家页面的质量决定了算法的准确性;而专家页面的质量和公平性在一定程度上难以保证。 Hiltop忽略了大多数非专家页面的影响。

       在Hilltop的原型系统中,专家页面只占到整个页面的1.79%,不能全面反映民意。

       Hilltop算法在无法得到足够的专家页面子集时(少于两个专家页面),返回为空,即Hilltop适合于对查询排序进行求精,而不能覆盖。这意味着Hilltop可以与某个页面排序算法结合,提高精度,而不适合作为一个独立的页面排序算法。

       Hilltop存在与HITS算法类似的计算效率问题,因为根据查询主题从“专家页面”集合中选取主题相关的页面子集也是在线运行的,这与前面提到的HITS算法一样会影响查询响应时间。随着“专家页面”集合的增大,算法的可扩展性存在不足之处。

6. Hilltop实战感悟

  1、Hilltop意思为山顶,顶点的意思。专家页面可以理解为整个Hilltop算法的顶点。

  2、Hilltop是Hits和PageRank融合,外链数量以及相关性决定了排名

  3、Hilltop是根据目标页和专业页面的分值来排序的,分值高的排前面,分值低的排后面。返回专业页和目标页的集合。

  4、基于Hilltop的算法原理,只有被专家页面导入链接的站才能有好的排名,那么新站很难上排名这是其一,由于网页众多,专家页的挑选也是一个大问题

6. Hilltop实战问答及应用

  1、外链建设中,为什么常说要注意相关性?

  从Hilltop算法来讲,影响外链效果的基本上是PageRank+Hits优点、也就是外链数量、质量+相关性

  2、同样是10个站,为什么相关行业的站效果好,而不相关行业效果不好呢?

 从Hilltop算法来讲,加入这10个导入链接是同一类型,并且和目标页相关,那么10个相关站有对应的专家页面,那么这10个入链的权重就高(限类型),所以导入目标页的权重自然比非相关的高,从主题敏感的PageRank也能看出。

 3、专家页面到底是如何确定的?目标页又是如何确定的?如何提高新站排名呢?

(1)专家页面的确定:书中和网上虽然讲了专家页确定是通过一定规则,筛选出主要关键词的专家文件子集合。那么就很明显了,决定一个页面是否为专家页面,就是一定的规则,也可以讲为一定的标准。那么这个标准是什么呢?朋少个人猜测:可能是外链 相关度 权重值 。这是最初的过程,那么经过一段时间后,专家页可能就是排名前十名或是前二十或是前5页的页面。为什么这样讲呢?什么才叫专家,放在现实生活中,专家是生活中某些技能做得比别人强的人,那么,放在搜索引擎领域,就是排名,排名越向前,代表这个网页越是专家,这是我个人理解。

(2)目标页面的确定:其实目标页是用于和专家页比较的。可以这样讲,非专家页面就是目标页。因为Hilltop往模型上讲是一个子集传播模型。但这并不是重点。重点在下面......

(3)专家页与目标页之间的关系:专家页和目标页不可能是一直不变的,因为Hilltop的算法是返回的专家页以及目标页。这样讲吧,比如搜济南SEO www.yigeseo.com这个域名前10 比如排名第九 是一个专家页面,也是交换友情链接,他的得分是10分,而yx.niubseo.com由于是一个新域名,现在他只有6分,是一个目标页面,注意:现在我有一个假设,我让排名在www.yigeseo.com前面所有的专家页都链向yx.niubseo.com,比如一个可以向它传递2分,链接了6个,就是12分 原来6分 现18分,它的分超过了www.yigeseo.com 甚至超过了排名在第6的网站,那么现在思路:yx.niubseo.com这个域名会不会进入专家页面?想想也是,如果专家页面一直都不变的话,那目标页永远不可能进去,这样只会造成一个情况:就是排在前面的永远在前面,排在后面的永远在后面。可是现实是后面的可以到前面来,前面的可以被挤到后面去。所以,专家页和目标页只是相对的

(4)如何利用Hilltop来提高新站排名?

基于Hilltop算法,其他变量不变情况

1).新站可以导出一些链接,注意相关性、权威性。为什么这样可以呢?稍微讲解一下就会明白:Hilltop继承了Hits Hits的Hub和Authority是相互增强的,Authority不说,那Hub可以做吧,就理解了。

2).基于PageRank 外链的数量及质量

3).外链页面Page 三个关键词片段:title H1 及 锚文本 可以从这三方面相关,毕竟现在和一个行业相关的外链并不是特别多,那可以制造外链Page相关.可以研究竞争对手外链,因为他能排上来,起码外链是相关,而且不错的

4).外链不要用站群,要属于非从属组织页面

 

 

 

 

百度超链接分析技术起源及文档

人们今天使用的搜索实在已经非常智能,搜索结果按相关性排列有序,甚至可以根据用户历史记实进行个性化定制。但在九十年代中期,还没有真正意义上的搜索引擎,搜索结果冗杂,如何识别网站质量、防止作弊成为了一个难以突破的技术瓶颈。

彼时,28岁的的李彦宏正在道-琼斯公司担任高级技术参谋,他已经牵头开发了《华尔街日报》网络版实时金融信息系统,这也是全球第一个网络实时金融信息系统。当时天天有15万条资讯,如斯海量的信息,用户很难快速找到自己想要的信息,迫切需要一种快速正确的检索技术来化解这样的挫折。

李彦宏在思考如何解决搜索正确性技术时,溘然想到,自己在北大所学的科技论文索引方法。“科学论文通过索引被引用次数的多寡来确定一篇论文的好坏,超链就是对页面的引用。”李彦宏回忆,“超链上的文字就是对所链接网页的描述,通过这个描述可以计算出超链和页面之间的相关度。”

这让李彦宏非常高兴,他立刻反复论证这一理论并收拾整顿成稿,1996年正式提出“超链分析”概念并发表了相关文章,1997年2月申请了专利——“超链分析技术”(Hypertext document retrieval system and method,专利号5,920,859)。超链分析技术的发明,一改互联网搜索杂乱无章、信息冗余的局面,使搜索效果大幅晋升。

在一次学术会议上,李彦宏请时任Infoseek CTO威廉?张观看超链分析的实践。李彦宏输入chinatimes,排在第一位的就是中国时报的网站,再搜IBM,IBM官方网站排在第一。威廉?张惊呼:“任何一个流行的搜索引擎都做不到。”

值得一提的是,李彦宏的超链分析中特别指出了不同文字链接的联系关系性,这种思惟前瞻性地预言:未来不同语种搜索引擎可能将在主要技术上不尽相同。现在,这种预言已经成为现实,目前中文、英文、俄文、韩文等区别较大的语系已经有各自不同的搜索引擎,固然技术体系各有千秋,但其本质与超链分析却都有千丝万缕的联系,例如Google。

旧事揭秘:佩奇和布林或受李彦宏启发

中国古代文人墨客以文会友,常会彼此称呼“一字师”,即对方的一个字给予自己巨大的启发和灵感。在互联网世界,百度创始人李彦宏实在是Google创始人拉里?佩奇(Larry Page)和塞尔吉?布林(Sergey Brin)的一言师。

前谷歌中国区总裁李开复(微博)曾在微博中提及,李彦宏和佩奇等三人是搜索引擎排序算法的最早的提出者。但他也许不知道,在李彦宏和佩奇之间,还有一段鲜为人知的旧事。

1997年2月李彦宏提交了超链分析的专利申请;1998年4月李彦宏赴澳大利亚演讲搜索前瞻技术,其入耳众席上就有佩奇和布林;1998年10月Google上线,同年申请了PageRank的专利,但因为Pagerank与李彦宏之前申请的超链分析专利具有相似性,美国专利商标局2001年9月才获准了PageRank专利申请。

根据曝光的李彦宏论文,超链分析(ESP)技术的本质是一种“投票”机制,一个链接可以看作一个网页对另一个网页的投票,票数决定排序。除了基本的投票机制,该技术还具有两方面特征:将链接文字作为重要信息加以利用,使搜索引擎更正确地舆解目标网页的内容,从而有效地进步了搜索结果的相关性;根据投票者自身的权势巨子性、推荐方式等属性调整投票权重,从而有效地进步了搜索结果的权势巨子性。

李彦宏的超链分析为现代搜索引擎发展指明了趋势和方向,标志着互联网搜索引擎进入了快速发展时代。而李彦宏相关超链分析的论文也被各种研究大篇幅引用,至今超链分析已被211件国际专利引用,并被世界各大搜索引擎普遍采纳。打个比方就是,超链分析搭起搜索新平台,其他人借助这个新平台衍生个性化的发展。

在1997至2000年间,李彦宏对自己的超链理论也通过论文著作逐步解析和完善,先后在IEEE(美国电气与电子工程师协会)刊物上发表,并不断在互联网搜索领域研究新的解决方案,随后李彦宏的新技术发明又申请了数项专利。1999年底,李彦宏回到祖国,创建中国人自己的搜索引擎公司——百度。如今,百度成长为全球最大的中文搜索引擎及最大的中文网站,超链分析功不可没。

在李彦宏率领百度拿下中国八成搜索市场份额时,良多人以为是卓越的贸易治理才能成就了李彦宏和百度,但在李彦宏看来,对搜索技术的专注和立异,才是百度成长的枢纽。他说:“在中国,无声的不是治理,是技术。太少人真正关心技术的提高,太多的人醉心于把治理当战役。”

百度超链接文档:http://www.weixingon.com/chaolianfenxi.html

主题敏感PageRank算法讲解

PageRank忽略了主题相关性,导致结果的相关性和主题性降低,对于不同的用户,甚至有很大的差别。例如,当搜索“苹果”时,一个数码爱好者可能是想要看 iphone 的信息,一个果农可能是想看苹果的价格走势和种植技巧,而一个小朋友可能在找苹果的简笔画。理想情况下,应该为每个用户维护一套专用向量,但面对海量用户这种方法显然不可行。所以搜索引擎一般会选择一种称为主题敏感PageRank(Topic-Sensitive PageRank )的折中方案。主题敏感PageRank的做法是预定义几个话题类别,例如体育、娱乐、科技等等,为每个话题单独维护一个向量,然后想办法关联用户的话题倾向,根据用户的话题倾向排序结果。

      主题敏感PageRankPageRank算法的改进版本,该算法已被Google使用在个性化搜索服务中。

1. 基本思想

基本思想:

       通过离线计算出一个与某一主题相关的PageRank向量集合,即计算某个页面关于不同主题的得分。主要分为两个阶段:主题相关的PageRank向量集合的计算和在线查询时主题的确定(即在线相似度的计算)。 

2. 主题敏感PageRank计算流程

1、确定话题分类

           主题敏感PageRank参考ODP网站(www.dmoz.org),定义了16个大的主题类别,包括体育、商业、科技等。ODP(Open Directory Project)是人工整理的多层级网页分类导航站点(参见图1),在顶级的16个大分类下还有更细致的小

                   

     

                                                                   图1  ODP首页

粒度分类结构,在最底层目录下,人工收集了符合该目录主题的精选高质量网页地址,以供互联网用户导航寻址。主题敏感PageRank采用了ODP最高级别的16个分类类别作为事先定义的主题类型。 

2、网页topic 归属

       这一步需要将每个页面归入最合适的分类,具体归类有很多算法,例如可以使用 TF-IDF 基于词素归类,也可以聚类后人工归类。这一步最终的结果是每个网页被归到其中一个 topic。

3、分topic 向量计算

      在PageRank的向量迭代公式:

         

        

     即R = q  × P * R + ( 1 一 q) * e/N  (e单位向量)

     而在主题敏感PageRank中,向量迭代公式为:

       

          首先是单位向量e变为了s。

          而s是这样一个向量:对于某 topic 的s,如果网页k在此 topic 中,则s中第k个元素为1,否则为0。注意对于每一个 topic 都有一个不同的s。而|s |表示s中 1 的数量。

        假设有页面A,B,C, D,假设页面A归为 Arts,B归为 Computers,C归为 Computers,D归为 Sports。那么对于 Computers 这个 topic,s就是:

           

     假设我们设置阻尼系数q=0.8, 而|s|=2, 因此,迭代公式为:

       

       最后算出的向量就是 Computers 这个 topic 的 rank。如果实际计算一下,会发现B、C页在这个 topic 下的权重相比上面非 Topic-Sensitive 的 rank 会升高,这说明如果用户是一个倾向于 Computers topic 的人(例如程序员),那么在给他呈现的结果中B、C会更重要,因此可能排名更靠前。

4. 在线相似度计算

        最后一步就是在用户提交搜索时,确定用户的 topic 倾向,以选择合适的 rank 向量。主要方法有两种:

       一种是列出所有 topic 让用户自己选择感兴趣的项目,这种方法在一些社交问答网站注册时经常使用;

       另外一种方法利用“用户查询分类器”对查询进行分类,即搜索引擎会通过某种手段(如 cookie 跟踪)跟踪用户的行为,进行数据分析判断用户的倾向。

       如2,假设用户输入了查询请求“乔丹”,查询词“乔丹”隶属于体育类别的概率为0.6,娱乐类别的概率为0.1,商业类别的概率为0.3                                              

                                            2 在线相似度计算

       在进行上述用户查询分类计算的同时,搜索系统读取索引,找出包含了用户查询“乔丹”的所有网页,并获得已计算好的各个分类主题的PageRank值,在图6-21的例子里,假设某个网页A的各个主题PageRank值分别为体育0.2,娱乐0.3以及商业0.1

      得到用户查询的类别向量和某个网页的主题PageRank向量后,即可计算这个网页和查询的相似度。通过计算两个向量的乘积就可以得出两者之间的相关性。在图6-21的例子里,网页A和用户查询“乔丹”的相似度为:

Sim(“乔丹”,A)= 0.6*0.2+0.1*0.3+0.3*0.1=0.18

      对包含“乔丹”这个关键词的网页,都根据以上方法计算,得出其与用户查询的相似度后,就可以按照相似度由高到低排序输出,作为本次搜索的搜索结果返回给用户。

3. 利用主题敏感PageRank构造个性化搜索    

       以上内容介绍的是主题敏感PageRank的基本思想和计算流程,从其内在机制来说,这个算法非常适合作为个性化搜索的技术方案。

    在图2所示例子里,计算相似度使用的只有用户当前输入的查询词“乔丹”,如果能够对此进行扩展,即不仅仅使用当前查询词,也考虑利用用户过去的搜索记录等个性化信息。比如用户之前搜索过“耐克”,则可以推断用户输入“乔丹”是想购买运动服饰,而如果之前搜索过“姚明”,则很可能用户希望获得体育方面的信息。通过这种方式,可以将用户的个性化信息和当前查询相融合来构造搜索系统,以此达到个性化搜索的目的,更精准的提供搜索服务。

4. 主题敏感PageRank与PageRank的差异 

      PageRank算法基本遵循前面章节提到的“随机游走模型”,即用户在浏览某个网页时,如果希望跳转到其它页面,则随机选择本网页包含的某个链接,进入另外一个页面。主题敏感PageRank则对该概念模型做出改进,引入了更符合现实的假设。一般来说用户会对某些领域感兴趣,同时,当浏览某个页面时,这个页面也是与某个主题相关的(比如体育报道或者娱乐新闻),所以,当用户看完当前页面,希望跳转时,更倾向于点击和当前页面主题类似的链接,即主题敏感PageRank是将用户兴趣、页面主题以及链接所指向网页与当前网页主题的相似程度综合考虑而建立的模型。很明显,这更符合真实用户的浏览过程。

     PageRank是全局性的网页重要性衡量标准,每个网页会根据链接情况,被赋予一个唯一的PageRank分值。主题敏感PageRank在此点有所不同,该算法引入16种主题类型,对于某个网页来说,对应某个主题类型都有相应的PageRank分值,即每个网页会被赋予16个主题相关PageRank分值。

     在接受到用户查询后,两个算法在处理方式上也有较大差异。PageRank算法与查询无关,只能作为相似度计算的一个计算因子体现作用,无法独立使用。而主题敏感PageRank是查询相关的,可单独作为相似度计算公式使用。而且,在接收到用户查询后,主题敏感PageRank还需要利用分类器,计算该查询隶属于事先定义好的16个主题的隶属度,并在相似度计算时的排序公式中利用此信息。

从SALAS算法到实战外链注意事项解析

SALSA算法的初衷希望能够结合PageRank和HITS算法两者的主要特点,既可以利用HITS算法与查询相关的特点,也可以采纳PageRank的“随机游走模型”,这是SALSA算法提出的背景。由此可见,SALSA算法融合了PageRank和HITS算法的基本思想,从实际效果来说,很多实验数据表明,SALSA的搜索效果也都优于前两个算法,是目前效果最好的链接分析算法之一。

从整体计算流程来说,可以将SALSA划分为两个大的阶段:首先是确定计算对象集合的阶段,这一阶段与HITS算法基本相同;第二个阶段是链接关系传播过程,在这一阶段则采纳了“随机游走模型”。

6.5.1确定计算对象集合

PageRank的计算对象是互联网所有网页,SALSA算法与此不同,在本阶段,其与HITS算法思路大致相同,也是先得到“扩充网页集合”,之后将网页关系转换为二分图形式。

扩充网页集合

SALSA算法在接收到用户查询请求后,利用现有搜索引擎或者检索系统,获得一批与用户查询在内容上高度相关的网页,以此作为“根集”。并在此基础上,将与“根集”内网页有直接链接关系的网页纳入,形成“扩充网页集合”(参考图6.4.3-1)。之后会在“扩充网页集合”内根据一定链接分析方法获得最终搜索结果排名。

转换为无向二分图

在获得了“扩充网页集合”之后,SALSA根据集合内的网页链接关系,将网页集合转换为一个二分图。即将网页划分到两个子集合中,一个子集合是Hub集合,另外一个子集合是Authority集合。划分网页节点属于哪个集合,则根据如下规则:

如果一个网页包含出链,这些出链指向“扩充网页集合”内其它节点,则这个网页可被归入Hub集合;

如果一个网页包含“扩充网页集合”内其它节点指向的入链,则可被归入Authority集合。

由以上规则可以看出,如果某个网页同时包含入链和出链,则可以同时归入两个集合。同时,Hub集合内网页的出链组成了二分图内的边,根据以上法则,将“扩充网页集合”转换为二分图。

图6-15和图6-16给出了一个示例,说明了这个转换过程。假设“扩充网页集合”如图6-15所示,由6个网页构成,其链接关系如图所示,同时为便于说明,每个网页给予一个唯一编号。图6-16则是将图6-15中的网页集合转换为二分图的结果。以网页6为例,因为其有出链指向网页节点3和网页节点5,所以可以放入Hub集合,也因为编号为1、3、10的网页节点有链接指向网页节点6,所以也可以放入Authority集合中。网页节点6的两个出链保留,作为二分图的边,

                                         图6-15 扩充网页集合示例

但是这里需要注意的是,在转换为二分图后,原先的有向边不再保留方向,转换为无向边,而HITS算法仍然保留为有向边,这点与SALSA略有不同。


                      图6-16   二分图

 到这一步骤为止,除了SALSA将“扩充网页集合”转换为无向二分图,而HITS仍然是有向二分图外,其它步骤和流程,SALSA算法与HITS算法完全相同,正因此,SALSA保证了是与用户查询相关的链接分析算法。


6.5.2 链接关系传播

在链接关系传播阶段,SALSA放弃了HITS算法的Hub节点和Authority节点相互增强的假设,转而采纳PageRank的“随机游走模型”。

链接关系传播概念模型

如图6-16所示,假设存在某个浏览者,从某个子集合中随机选择一个节点出发(为方便说明,图中所示为从Hub子集的节点1出发,实际计算往往是从Authority子集出发),如果节点包含多条边,则以相等概率随机选择一条边,从Hub子集跳跃到Authority集合内节点,图中所示为由节点1转移到节点3,之后从Authority子集再次跳回Hub子集,即由节点3跳到节点6。如此不断在两个子集之间转移,形成了SALSA自身的链接关系传播模式。

尽管看上去与PageRank的链接传播模式不同,其实两者是一样的,关键点在于:其从某个节点跳跃到另外一个节点的时候,如果包含多个可供选择的链接,则以等概率随机选择一条路径,即在权值传播过程中,权值是被所有链接平均分配的。而HITS算法不同,HITS算法属于权值广播模式,即将节点本身的权值完全传播给有链接指向的节点,并不根据链接多少进行分配。

SALSA的上述权值传播模型与HITS模型关注重点不同,HITS模型关注的是Hub和Authority之间的节点相互增强关系,而SALSA实际上关注的是Hub-Hub以及Authority-Authority之间的节点关系,而另外一个子集合节点只是充当中转桥梁的作用。所以,上述权值传播模型可以转化为两个相似的子模型,即Hub节点关系图和Authority节点关系图。

Authority节点关系图

图6-17是由6-16的二分图转化成的“Authority节点关系图”,“Hub节点关系图”与此类似,两者转化过程是相似的,我们以“Authority节点关系图”为例来看如何从二分图转化为节点关系图。

            图6-17  Authority节点关系图

  这里需要注意的是:Authority集合内从某个节点i转移到另外一个节点j的概率,与从节点j转移到节点i的概率是不同的,即非对称的,所以转换后的Authority节点关系图是个有向图,以此来表示其转移概率之间的差异。

对于图6-17这个“Authority节点关系图”来说,图中包含的节点就是二分图中属于Authority子集的节点,关键在于节点之间的边如何建立以及节点之间转移概率如何计算。

节点关系图中边的建立

之所以在“Authority节点图”中,节点3有边指向节点5,是因为在二分图中,由节点3通过Hub子集的节点6中转,可以通达节点5,所以两者之间有边建立。

这里需要注意的是:在二分图中,对于Authority集合内某个节点来说,一定可以通过Hub子集的节点中转后再次返回本身,所以一定包含一条指向自身的有向边。节点1因为只有中转节点2使得其返回Authority子集中自身节点,所以只有指向自身的一条边,和其它节点没有边联系,所以例子中的“Authority节点关系图”由两个连通子图构成,一个只有节点1,另外一个连通子图由剩余几个节点构成。

节点之间的转移概率

至于为何“Authority节点关系图”中,节点3到节点5的转移概率为0.25,是因为前面介绍过,SALSA的权值传播模型遵循“随机游走模型”。在图6-16的二分图中,从节点3转移到节点5的过程中,节点3有两条边可做选择来跳转到Hub子集,所以每条边的选择概率为1/2,可以选择其中一条边到达节点6,同样,从节点6跳回到Authority子集时,节点6也有两条边可选,选中每条边的概率为1/2。所以从节点3出发,经由节点6跳转到节点5的概率为两条边权值的乘积,即为1/4。

对于指向自身的有向边,其权重计算过程是类似的,我们仍然以节点3为例,指向自身的有向边代表从Authority子集中节点3出发,经由Hub子集的节点再次返回节点3的概率。从6-16的二分图可以看出,完成这个过程有两条路径可走,一条是从节点3到节点1返回;另外一条是从节点3经由节点6后返回;每一条路径的概率与上面所述计算方法一样,因为两条路径各自的概率为0.25,所以节点3返回自身的概率为两条路径概率之和,即为0.5。图中其它边的转移概率计算方式也是类此。

建立好“Authority节点关系图”后,即可在图上利用“随机游走模型”来计算每个节点的Authority权值。在实际计算过程中,SALSA将搜索结果排序问题进一步转换为求Authority节点矩阵的主秩问题,矩阵的主秩即为每个节点的相应Authority得分,按照Authority得分由高到低排列,即可得到最终的搜索排序结果。

6.5.3Authority权值计算

           图6-18  SALSA节点权值计算公式

经过数学推导,可以得出SALSA与求矩阵主秩等价的Authority权值计算公式。图6-18示意图表明了SALSA算法中某个网页节点的Authority权值是如何计算的。如图右上角公式所示,决定某个网页i的Authority权值涉及到4个因子:

Authority子集中包含的节点总数|A|。其实这个因子对于Authority集合中任意节点来说都是相同的,所以对于最终的根据节点Authority权值进行排序没有影响,只是起到保证权值得分在0到1之间,能够以概率形式表示权值的作用;

网页i所在连通图中包含的节点个数|Aj|。网页所在的连通图包含的节点个数越多,则网页的Authority权值越大;

网页i所在连通图中包含的入链总数|Ej|。网页所在的连通图包含的入链总数越少,则网页的Authority权值越大;

 网页i的入链个数|Bi|。节点入链越多,则Authority权值越大,这个因子是唯一一个和节点本身属性相关的。由此可见,SALSA权值计算和节点入链个数成正比。

     之前图6-17的“Authority节点关系图”由两个连通子图组成,一个由唯一的节点1构成,另外一个由节点3、5、6三个节点构成,两个连通子图在图6-18中也被分别圈出。

  我们以节点3为例,看其对应的四个计算因素取值:

Authority子集共包括4个节点;

节点3所在连通图包含3个节点;

节点3所在连通图共有6个入链;

节点3的入链个数为2;

  所以,节点3的Authority权值为:(3/4)*(2/6)=0.25。其它节点权值的计算过程与此类似。SALSA根据节点的Authority权值由高到低排序输出,即为搜索结果。

  由上述权值计算公式可以推论出:如果整个Authority子集所有节点形成一个完整的连通图,那么在计算authority权值过程中,对于任意两个节点,4个因子中除了节点入链个数外,其它三个因子总是相同,即只有入链个数起作用,此时,SALSA算法退化为根据节点入链个数决定排序顺序的算法。

  从SALSA计算Authority得分过程中可看出,SALSA算法不需像HITS算法一样进行不断迭代计算,所以从计算效率角度看要快于HITS算法。另外,SALSA算法解决了HITS算法的计算结果主题漂移的问题,所以搜索质量也优于HITS算法。SALSA算法是目前效果最好的链接算法之一。

总结:

1、有一些人总是喜欢看收录然后判断一个词优化难易程度,这样有没有道理?
假如,这里只能说假如,假如把收如的页面都看做节点的话,在总节点不变的情况下,那么AJ就会大,AJ越大,那上去的网站,权重值算出来就越高。权重值越高,你就越难超越!、

2、链接越多,权重越高?
理论上是这样,根据图上的公式计算,链接数是Bi,bi越大,那这个页面的authority就会越大,毕竟BI是分子,小学数学都会算

3、同样是10条外链,为什么两个站之间排名差距很大?
Ej做为分母来讲,当然越小越大,如果一个行业其他网站都没怎么做链接,我们做链接应该是比较好用的。同样的入链,不同的总数,肯定效果明显。也可以想,为什么同样的外链,对不同的行业有不同行反应。

4、root(根集)SALSA算法的根集是什么?、
根集是一些比较好的页面,比如拿SEO行业,可能济南SEO或是济南网站优化排名前2页的就是根集!

5、SALSA算法还有哪些特点?
(1)有hits算法因素,在相关性、页面权威度方面要注意。一个权7的站 和一个权0的站 导向你的权重是不一样的。一个有1000条外链的站,和一个无外链的站,导向你也是不同的。
(2)同样是hits,一个高质量的权威站导向你是不同的。一个好的hub页面,比如hao123导航导向你的权重也是不一样的。
(3)pageRank因素。主要是导出链接,这里数量就不说了。pageRank比hits强的一点是,平均分配,也可以说是一个页面有10个导出,其实他向每个链接点击的概念都是相同的。
这样的话,导出越多,分的authority就会越小。同样是一个权1的站,有100个导出和10个导出,也是完全两个概念。

研究算法,能让你明白SEO的一些实质和原理。不至于那么迷茫!

如何利用PageRank算法与Hits算法作弊?

一、PageRank作弊手法
由于我们都知道PageRank算法是由链接的数量与质量决定的。那作弊方法就及期简单。
(1)数量巨大链接导向我们目标页
(2)导向我们目标页的page本身质量要高(不要求相关,只要求本身质量就可以,比如做BC站,可以用高权重的新闻站导链接)
引文:
魔高一尺道高一丈,我也已经知道了PageRank算法的原理无非就是靠链接数升排名嘛,那我想让我自己的网页排名靠前,只要搞出很多网页,把链接指向我,不就行了,学术上这叫Link Spam攻击。但是这里有个问题,PR值是相对的,自己的网页PR值的高低还是要取决于指向者的PR值,这些指向者 的PR值如果不高,目标页也不会高到哪去,所以这时候,如果你想自己造成一堆的僵尸网页,统统指向我的目标网页,PR也不见的会高,所以我们看到的更常见的手段是在门户网站上放链接,各大论坛或者类似于新浪,网页新闻中心的评论中方链接,另类的实现链接指向了。目前针对这种作弊手法的直接的比较好的解决办法是没有,但是更多采用的是TrustRank,意味信任排名检测,首先挑出一堆信任网页做参照,然后计算你的网页的PR值,如果你网页本身很一般,但是PR值特别高,那么很有可能你的网页就是有问题的。

二、Hits作弊手法
(1)给高权重的网站做单链,比如新浪、网易、百度等
(2)大量导向页导向排名页面,可以将导向页做成好的hub页面,比如导向页导向大量的高权重的authority,然后就成为了一个好的hub页面,而这样再导向目标页的时候,基本就传递权重就高。
(3)要注意的是:相关、权威。如果你一个垃圾站,你导向大网站也不会是一个好的hub。那么如何与大网站之间成为相关站呢。举个例子:
我要做一个小姐上门的网站,
OK,我在标题上可以带上小姐上门这种词,于是我的title可以这样写:济南小姐上门新闻网
这样的话,里面放一些新闻,是不是可以说成一个新闻站呢?
然后再导向新浪、网易的新闻页面,是不是可以增加hub呢?

三、Hits和PageRank结合

上面讲的思路,基本就是hits和PageRank结合,利用本身相关,导向高权重的站。这就是hits运用,然后再用大量的垃圾新闻源导向你这个站,也符合pagerank

收工!!!