服务项目
联系方式
保定市遨游计算机服务有限公司
咨询热线:13313028229
售后:0312-6791400
售后:0312-6791126
网址:www.aoyou56.com
地址:保定朝阳大街国贸大厦8楼808室
【网站优化】高手级SEO不告诉你的搜索原理
[来源:www.aoyou56.com] [作者:网站建设] [日期:15-08-08] [浏览次数:]

总链接库和抓取策略说完了后,我们就要对搜索引擎最重要的一部分来进行一个仔细的讲解了,换个说法,互联网上的信息都是鱼,抓鱼需要有渔网和鱼篓,而接下来要讲的爬虫和下载系统就对应着渔网和鱼篓了,明白了SE的爬虫和存储机制,在我们来说,开展SEO工作就会少走很多的弯路。

爬虫

爬虫是根据指定URL下载网页内容的程序或脚本,一般搜索引擎均采用分布式爬虫架构。分布式爬虫由数据中心、分布式抓取服务器、分布式爬虫程序组成,数据中心由多台抓取服务器组成,每台抓取服务器可承载多个爬虫程序。

常见分布式架构有主从式分布爬虫和对等式分布爬虫。

主从式分布爬虫相当于只有一个URL分配服务器,将全互联网的URL分配给若干个抓取服务器进行下载。这种架构明显对URL分配服务器性能要求很高,面对互联网大数据,很容易出现系统瓶颈。

对等式分布爬虫没有URL分配服务器,每台抓取服务器负责特定域名集合下URL的抓取。对互联网域名分集可通过哈希取模或一致性哈希:

哈希取模指对于n台抓取服务器,首先对域名进行哈希计算,得到的值对n取模,得到余数即为该域名应分配的服务器编号。

例如,假设有5台抓取服务器,对应编号为0、1、2、3、4,对域名进行哈希计算后得到的值为16,16对5取模得到余数1,即该域名下URL应交由1号服务器抓取。

然而,这种模式存在缺陷,在某台抓取服务器宕机或由于URL增加导致服务器平均负载增加而需要增加抓取服务器时,取模的n就需要改变。这就意味着整个系统要进行重新分配,将导致资源的浪费。

一致性哈希指对域名进行哈希计算,映射为一个在0~232之间的某个数,将哈希范围首尾相接,即认为数值0和232重合,可以将其假想成一个有序的环状序列,每台服务器负责某个数值段。

假设本站域名经哈希后落入2号服务器执行抓取,而2号服务器出现宕机,则继续按顺时针查找,将URL交由第一个碰到的服务器,即3号服务器,直至2号服务器恢复正常。

由于分布式爬虫结构,故同一网站会出现很多不同IP的蜘蛛爬取记录,这是协同抓取系统中很正常的事。部分SEOer认为不同IP段意味着不同权重的蜘蛛,其中某字段IP蜘蛛为降权蜘蛛。

抓取系统可能会对URL进行权重赋值,以便于确定抓取顺序。然而,这个权重值也仅仅用于抓取系统,网页检索排序有更复杂的权重规则。故,降权蜘蛛一说不成立。

微信二维码