咨询热线:13313028229
售后:0312-6791400
售后:0312-6791126
网址:www.aoyou56.com
地址:保定朝阳大街国贸大厦8楼808室
搜索引擎的工作区域主要分为四大部分,下载系统、分析系统、检索系统、查询系统,这一篇文章就来讲一下下载系统的那些事,希望看官能够时常结合高手级SEO不告诉你的搜索原理的系列文章,对搜索引擎能有一个初步的看法,这样就会避免掉很多错误观念的影响。
蜘蛛下载过程与浏览器类似,不同点在于蜘蛛仅下载HTML文件,不对文件进行渲染,不加载图片、Flash等内容,一般情况下不加载JS。
蜘蛛在采集网站信息时会考虑网站的网络负载,根据网站的网络带宽来控制抓取量。一般情况下,负载是基于IP控制的。故而,增加网站的带宽是有利于SEO的。当然,如果是共享IP的网站,这点很难控制。
下载过程大致可分为四个步骤:DNS解析、TCP连接、服务器计算、HTML下载。
DNS解析主要跟DNS服务器性能有关,另外与解析方式也有一定关系。对于SEO而言,可以通过测试选择专业的DNS服务商。在这个步骤最容易出现的情况是运营部门屏蔽蜘蛛IP,因为蜘蛛爬取过程很类似DOS攻击。
TCP连接速度主要取决于Web服务器能否快速接入请求,一般而言,当服务器同时接入大量请求信息时会产生拥堵甚至拒绝接入的情况,接入量越大TCP连接速度越慢。当然,也跟所选WEB服务器程序(如IIS、Apache、Nginx等)有关。针对大型网站,可通过增加配置解决问题。针对采用合租服务器方式的小型网站,要避免和论坛、下载站等访问量大、消耗带宽大的网站共享服务器。
服务器计算速度主要取决于网站程序构架、数据库执行效率、程序语言效率等(针对动态内容),同时与并行处理量等有关。在这一过程最常见的问题就是数据库执行效率低下,因而会导致网站速度降低甚至出现页面访问出错的情况。
杨子的网站服务器就经常因为同一时间访问量过大而出现数据库错误的情况,另人相当郁闷。针对该过程进行优化主要是运营的事情了,要么换好一点的程序要么换好一点的工程师。
HTML下载速度主要取决文件的大小及网络带宽(针对大型网站较明显),对于SEO而言,可对HTML代码进行优化。很多网站HTML代码都存在冗长的问题,甚至通篇代码而文本内容仅占极小一部分。我曾经接手的网站使用过的页面功能,在去除后仍保留代码,或者某一“更多”按钮下隐藏着该功能全部的链接(都体现在HTML里,内容甚至超过了页面主体的内容量!)。针对HTML优化,看源码是个好习惯。