登录/注册 搜索
首页 / SEO基础 / 网络爬虫的基本工作原理是怎样的?
返回

网络爬虫的基本工作原理是怎样的?

浏览次数:1500 分类:SEO基础

前几天有个小伙伴问我什么是网络爬虫?是像那种毛毛虫一样吗?想当初我没入行的时候也会这般认为,等了解概念后就更加清楚了,因此今天有必要跟大家分享下网络爬虫是怎么工作的,其工作原理是怎么样的?

对话

 

 百度百科解释网络爬虫
网络蜘蛛(Web spider)也叫网络爬虫(Web crawler),蚂蚁(ant),自动检索工具(automatic indexer),或者(在FOAF软件概念中)网络狂奔(WEB scutter),是一种“自动化浏览网络”的程序,或者说是一种网络机器人。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。它们被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容,以供搜索引擎做进一步处理(分检收拾整顿下载的页面),而使得用户能更快的检索到他们需要的信息。

维基百科网络蜘蛛

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更常常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。网络爬虫框架主要由控制器、解析器和索引库三大部门组成,而爬虫工作原理主要是解析器这个环节,解析器的主要工作是下载网页,进行页面的处理,主要是将一些JS脚本标签、CSS代码内容、空格字符、HTML标签等内容处理掉,爬虫的基本工作是由解析器完成,所以解析器的详细流程是:

网络爬虫工作原理图
那么爬虫工作原理是怎样的呢?

简单来说爬虫就是抓取目标网站内容的工具,一般是根据定义的行为自动进行抓取,更智能的爬虫会自动分析目标网站结构类似与搜索引擎的爬虫,我们这里只讨论基本的爬虫原理。

网络爬虫的基本工作流程如下:

1.首先选取一部分精心挑选的种子URL;

2.将这些URL放入待抓取URL队列;

3.从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。

4.分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。

总结基本套路就是:

基本的套路可以这样划分:

入口访问->下载内容->分析结构->提取内容

最终以快照的形式呈现在搜索引擎上。如图

搜索引擎快照

下面列举常见的搜索引擎爬虫类别:

 

Google爬虫 
算法优秀,反应速度迅速,对内容质量把握优秀,中等强度爬虫程序, 对服务器负担不大,推广效果好。
对应user-agent:爬虫名称 
Googlebot:google网页爬虫 
Googlebot-news:google新闻爬虫 
Googlebot-image:google图片爬虫 
Googlebot-video:google视频爬虫 
Googlebot-mobile:google移动爬虫 
Mediapartners-google或Mediapartners(googlebot):google广告爬虫 
Adsbot-google:google着陆页质量检测爬虫

百度爬虫
算法良好,反应速度迟钝,对内容质量把握一般,高强度爬虫程序,由于算法优化不良问题,
对服务器负担较大,本身小问题也挺多,隐私保护恶劣,在百度面前无隐私可言,推广效果好。
对应user-agent:爬虫名称
Baiduspider:百度网页爬虫兼移动爬虫
Baiduspider-image:百度图片爬虫
Baiduspider-video:百度视频爬虫
Baiduspider-news:百度新闻爬虫
Baiduspider-favo:百度搜藏爬虫
Baiduspider-cpro:百度联盟爬虫
Baiduspider-ads:百度商务爬虫

好搜(即360爬虫)
对应user-agent:爬虫名称
360spider或haosouspider:好搜网页爬虫兼移动爬虫
360spider-image:好搜图片爬虫
360spider-video:好搜视频爬虫

搜狗爬虫
算法恶劣,反应速度极其迟钝,不能良好的把握内容质量,高强度爬虫程序,由于算法奇差,
会对页面进行大量反复而又无实际意义的扫描,对服务器负担很大,抓取压力大,综合性价比非常低。
对应user-agent:爬虫名称
Sogou spider:搜狗综合爬虫

新浪爱问爬虫
对应user-agent:爬虫名称
Iaskspider:新浪爱问爬虫

有道爬虫
对应user-agent:爬虫名称
YodaoBot:网易有道爬虫

Alexa爬虫
对应user-agent:爬虫名称
ia_archiver:Alexa爬虫

雅虎爬虫
对应user-agent:爬虫名称
Yahoo! Slurp:雅虎爬虫

必应爬虫
对应user-agent:爬虫名称
Bingbot:必应爬虫

爬虫基本都属这些类。

您好!请登录

点击取消回复

    购物车

    X

    我的足迹

    X
    FUNION飞优免费测评网站质量:
    定制方案
    x

    力荐定制全网营销型网站已有10967548位客户定制营销型网站方案

    网站类型*
    建站目的*
    建站周期*
    行业类型*
    公司名称* 姓名* 手机号码*
    适合您的网站类型 ? 建站类型 ? 建站目的 ? 建站要求? 建站预算? 预期周期? 交付周期?
    我要定制

    飞优

    网站建设 | SEO优化 | SEM托管 | 信息流推广 | 口碑营销

    姓名
    邮箱
    手机
    留 言: