1.爬虫习惯各大搜索引擎的爬虫为了更有效率的爬抓数据
浏览次数:49 分类:SEO基础
1.爬虫习惯
各大搜索引擎的爬虫为了更有效率的爬抓数据,通常都会有跟踪链接的习惯,通过一个页面包含的链接,爬到这个链接里面。就好比互联网一样,由多个链接页面组成,而爬虫的爬行习惯,也为它总结了两种:广度优先爬行和深度优先爬行。
1.1广度优先爬行
如图2.31爬虫的广度优先爬行图,广度优先爬行的意思为爬虫在爬行的过程中发现了第一层有好多链接的时候,不是一直往前爬行完,而是先把第一层爬行结束之后,再进行爬行剩下的链接seo爬虫基础知识,假设该爬虫爬到Z界面的时候发现了A1、B1、C3的界面时,先将第一层爬行结束后,再进行A2、A3、A4界面的爬行,爬行结束后,再进行其他页面的爬行。
图1 爬虫广度优先爬行 1.2 深度优先爬行
深度优先爬行,顾名思义,也就是爬虫进行爬取的时候,从原始界面顺着一个链接一直爬行,直到该链接爬行结束之后,再进行回到原始界面,进行下一个链接的爬行。
继续用图来解释说,如图4.2.2所示,当爬虫进行爬取的时候进入到Z原始界面的时候,沿着Z界面不是先爬行跟A相关的界面,而是先爬行第一层的A1、B1、C3界面,然后在进行对A2、A3、A4界面的爬行,等待A界面的爬行结束之后,再返回爬行剩下来的界面。
但是不管是深度优先爬行还是广度优先爬行,只要给它相应的时间,爬虫都会有效率的将所有的界面都进行爬取完,当然在我们接触网站的时候,并不是只有一个存在,往往我们都是将两种形式相结合在一起使用,爬虫也会出现多只分头进行爬取。
不过实际爬行也没有我们理论当中那样速度,每次爬虫进行爬取的时候,也不能把所有的界面都给爬行完,这也就导致了很多时候,站长发布内容的时候,发现很多文章并没有收录或者个别目录没有进行爬取得现象。
图2 爬虫深度优先爬行2.如何吸引蜘蛛
说到吸引蜘蛛,这里就要把蜘蛛假设成一个人,它也有一定习惯和爱好,为了能让蜘蛛更好的去爬行自己的网站或者是收录未被爬行过的网站,这个时候就要想想怎么通过站内站外,进行吸引蜘蛛和让蜘蛛喜欢自己的网站。
(1)网站的首页目录页内页权重高。
(2)网站内容相关性贴切,内容质量高。
(3)页面更新频率高(更新频率低或者不更新,容易被k)。
(4)添加链接或者锚文本。在网站相应权重高的网页进行添加好内容的链接或者锚文本,当爬虫来爬取的时候,就会沿着这个链接爬过去。
(5)与首页的点击事件的次数。在SEO行业中,都晓得一件事情,首页的权重永远是最高的,因为各个页面几乎都导向首页。但是爬虫的爬行过多也不好(从首页点击,点击事件就好比进入首页之后点击鼠标的次数)seo爬虫基础知识,一般化在3次左右就差不多了,所以点击事件越少,权重越高。
(6)URL结构。相应的URL越是简单,用户能够简单理解的,搜索引擎都会给一丢丢印象分,包括URL的历史因素等。
在搜索引擎发现链接的时候,并不直接就过去抓取,而是会建立一个地址库之后,统一的进行抓取。
您好!请登录