网络爬虫的基本工作原理是怎样的?
浏览次数:1500 分类:SEO基础
前几天有个小伙伴问我什么是网络爬虫?是像那种毛毛虫一样吗?想当初我没入行的时候也会这般认为,等了解概念后就更加清楚了,因此今天有必要跟大家分享下网络爬虫是怎么工作的,其工作原理是怎么样的?
百度百科解释网络爬虫
网络蜘蛛(Web spider)也叫网络爬虫(Web crawler),蚂蚁(ant),自动检索工具(automatic indexer),或者(在FOAF软件概念中)网络狂奔(WEB scutter),是一种“自动化浏览网络”的程序,或者说是一种网络机器人。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。它们被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容,以供搜索引擎做进一步处理(分检收拾整顿下载的页面),而使得用户能更快的检索到他们需要的信息。
维基百科网络蜘蛛
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更常常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。网络爬虫框架主要由控制器、解析器和索引库三大部门组成,而爬虫工作原理主要是解析器这个环节,解析器的主要工作是下载网页,进行页面的处理,主要是将一些JS脚本标签、CSS代码内容、空格字符、HTML标签等内容处理掉,爬虫的基本工作是由解析器完成,所以解析器的详细流程是:
那么爬虫工作原理是怎样的呢?
简单来说爬虫就是抓取目标网站内容的工具,一般是根据定义的行为自动进行抓取,更智能的爬虫会自动分析目标网站结构类似与搜索引擎的爬虫,我们这里只讨论基本的爬虫原理。
网络爬虫的基本工作流程如下:
1.首先选取一部分精心挑选的种子URL;
2.将这些URL放入待抓取URL队列;
3.从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。
4.分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。
总结基本套路就是:
基本的套路可以这样划分:
入口访问->下载内容->分析结构->提取内容
最终以快照的形式呈现在搜索引擎上。如图
下面列举常见的搜索引擎爬虫类别:
Google爬虫 算法优秀,反应速度迅速,对内容质量把握优秀,中等强度爬虫程序, 对服务器负担不大,推广效果好。 对应user-agent:爬虫名称 Googlebot:google网页爬虫 Googlebot-news:google新闻爬虫 Googlebot-image:google图片爬虫 Googlebot-video:google视频爬虫 Googlebot-mobile:google移动爬虫 Mediapartners-google或Mediapartners(googlebot):google广告爬虫 Adsbot-google:google着陆页质量检测爬虫
百度爬虫 算法良好,反应速度迟钝,对内容质量把握一般,高强度爬虫程序,由于算法优化不良问题, 对服务器负担较大,本身小问题也挺多,隐私保护恶劣,在百度面前无隐私可言,推广效果好。 对应user-agent:爬虫名称 Baiduspider:百度网页爬虫兼移动爬虫 Baiduspider-image:百度图片爬虫 Baiduspider-video:百度视频爬虫 Baiduspider-news:百度新闻爬虫 Baiduspider-favo:百度搜藏爬虫 Baiduspider-cpro:百度联盟爬虫 Baiduspider-ads:百度商务爬虫
好搜(即360爬虫) 对应user-agent:爬虫名称 360spider或haosouspider:好搜网页爬虫兼移动爬虫 360spider-image:好搜图片爬虫 360spider-video:好搜视频爬虫
搜狗爬虫 算法恶劣,反应速度极其迟钝,不能良好的把握内容质量,高强度爬虫程序,由于算法奇差, 会对页面进行大量反复而又无实际意义的扫描,对服务器负担很大,抓取压力大,综合性价比非常低。 对应user-agent:爬虫名称 Sogou spider:搜狗综合爬虫 新浪爱问爬虫 对应user-agent:爬虫名称 Iaskspider:新浪爱问爬虫 有道爬虫 对应user-agent:爬虫名称 YodaoBot:网易有道爬虫 Alexa爬虫 对应user-agent:爬虫名称 ia_archiver:Alexa爬虫 雅虎爬虫 对应user-agent:爬虫名称 Yahoo! Slurp:雅虎爬虫 必应爬虫 对应user-agent:爬虫名称 Bingbot:必应爬虫 爬虫基本都属这些类。
上一篇: 新手小白站长的读书笔记——关键词密度
下一篇: 搜索引擎 234项核心算法全面解析
您好!请登录