免费网站建设/免费百度推广-400电话办理即可-【网站优化】高手级SEO不告诉你的搜索原理

设为首页

服务项目

联系方式

保定市遨游计算机服务有限公司
咨询热线：13313028229
售后：0312-6791400
售后：0312-6791126
网址：www.aoyou56.com
地址：保定朝阳大街国贸大厦8楼808室

【网站优化】高手级SEO不告诉你的搜索原理

[来源：www.aoyou56.com] [作者：网站建设] [日期：15-08-08] [浏览次数：]

总链接库和抓取策略说完了后，我们就要对搜索引擎最重要的一部分来进行一个仔细的讲解了，换个说法，互联网上的信息都是鱼，抓鱼需要有渔网和鱼篓，而接下来要讲的爬虫和下载系统就对应着渔网和鱼篓了，明白了SE的爬虫和存储机制，在我们来说，开展SEO工作就会少走很多的弯路。

爬虫

爬虫是根据指定URL下载网页内容的程序或脚本，一般搜索引擎均采用分布式爬虫架构。分布式爬虫由数据中心、分布式抓取服务器、分布式爬虫程序组成，数据中心由多台抓取服务器组成，每台抓取服务器可承载多个爬虫程序。

常见分布式架构有主从式分布爬虫和对等式分布爬虫。

主从式分布爬虫相当于只有一个URL分配服务器，将全互联网的URL分配给若干个抓取服务器进行下载。这种架构明显对URL分配服务器性能要求很高，面对互联网大数据，很容易出现系统瓶颈。

对等式分布爬虫没有URL分配服务器，每台抓取服务器负责特定域名集合下URL的抓取。对互联网域名分集可通过哈希取模或一致性哈希：

哈希取模指对于n台抓取服务器，首先对域名进行哈希计算，得到的值对n取模，得到余数即为该域名应分配的服务器编号。

例如，假设有5台抓取服务器，对应编号为0、1、2、3、4，对域名进行哈希计算后得到的值为16，16对5取模得到余数1，即该域名下URL应交由1号服务器抓取。

然而，这种模式存在缺陷，在某台抓取服务器宕机或由于URL增加导致服务器平均负载增加而需要增加抓取服务器时，取模的n就需要改变。这就意味着整个系统要进行重新分配，将导致资源的浪费。

一致性哈希指对域名进行哈希计算，映射为一个在0~232之间的某个数，将哈希范围首尾相接，即认为数值0和232重合，可以将其假想成一个有序的环状序列，每台服务器负责某个数值段。

假设本站域名经哈希后落入2号服务器执行抓取，而2号服务器出现宕机，则继续按顺时针查找，将URL交由第一个碰到的服务器，即3号服务器，直至2号服务器恢复正常。

由于分布式爬虫结构，故同一网站会出现很多不同IP的蜘蛛爬取记录，这是协同抓取系统中很正常的事。部分SEOer认为不同IP段意味着不同权重的蜘蛛，其中某字段IP蜘蛛为降权蜘蛛。

抓取系统可能会对URL进行权重赋值，以便于确定抓取顺序。然而，这个权重值也仅仅用于抓取系统，网页检索排序有更复杂的权重规则。故，降权蜘蛛一说不成立。