咨询热线:13313028229
售后:0312-6791400
售后:0312-6791126
网址:www.aoyou56.com
地址:保定朝阳大街国贸大厦8楼808室
总链接库和抓取策略说完了后,我们就要对搜索引擎最重要的一部分来进行一个仔细的讲解了,换个说法,互联网上的信息都是鱼,抓鱼需要有渔网和鱼篓,而接下来要讲的爬虫和下载系统就对应着渔网和鱼篓了,明白了SE的爬虫和存储机制,在我们来说,开展SEO工作就会少走很多的弯路。
爬虫
爬虫是根据指定URL下载网页内容的程序或脚本,一般搜索引擎均采用分布式爬虫架构。分布式爬虫由数据中心、分布式抓取服务器、分布式爬虫程序组成,数据中心由多台抓取服务器组成,每台抓取服务器可承载多个爬虫程序。
常见分布式架构有主从式分布爬虫和对等式分布爬虫。
主从式分布爬虫相当于只有一个URL分配服务器,将全互联网的URL分配给若干个抓取服务器进行下载。这种架构明显对URL分配服务器性能要求很高,面对互联网大数据,很容易出现系统瓶颈。
对等式分布爬虫没有URL分配服务器,每台抓取服务器负责特定域名集合下URL的抓取。对互联网域名分集可通过哈希取模或一致性哈希:
哈希取模指对于n台抓取服务器,首先对域名进行哈希计算,得到的值对n取模,得到余数即为该域名应分配的服务器编号。
例如,假设有5台抓取服务器,对应编号为0、1、2、3、4,对域名进行哈希计算后得到的值为16,16对5取模得到余数1,即该域名下URL应交由1号服务器抓取。
然而,这种模式存在缺陷,在某台抓取服务器宕机或由于URL增加导致服务器平均负载增加而需要增加抓取服务器时,取模的n就需要改变。这就意味着整个系统要进行重新分配,将导致资源的浪费。
一致性哈希指对域名进行哈希计算,映射为一个在0~232之间的某个数,将哈希范围首尾相接,即认为数值0和232重合,可以将其假想成一个有序的环状序列,每台服务器负责某个数值段。
假设本站域名经哈希后落入2号服务器执行抓取,而2号服务器出现宕机,则继续按顺时针查找,将URL交由第一个碰到的服务器,即3号服务器,直至2号服务器恢复正常。
由于分布式爬虫结构,故同一网站会出现很多不同IP的蜘蛛爬取记录,这是协同抓取系统中很正常的事。部分SEOer认为不同IP段意味着不同权重的蜘蛛,其中某字段IP蜘蛛为降权蜘蛛。
抓取系统可能会对URL进行权重赋值,以便于确定抓取顺序。然而,这个权重值也仅仅用于抓取系统,网页检索排序有更复杂的权重规则。故,降权蜘蛛一说不成立。