robots协议也称爬虫协议、爬虫规则等是什么
浏览次数:40 分类:SEO优化
robots协议也称爬虫协议、爬虫规则等,是指网站可建立一个robots.txt文件来告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,而搜索引擎则通过读取robots.txt文件来识别这个页面是否允许被抓取。但是,这个robots协议不是防火墙,也没有强制执行力,搜索引擎完全可以忽视robots.txt文件去抓取网页的快照。
2、Disallow
Disallow用来说明不允许搜索引擎蜘蛛抓取的URL路径。
例如:Disallow:/index.php禁止搜索引擎抓取index.php文件
3、Allow
Allow用来说明允许搜索引擎蜘蛛爬行的URL路径
例如:Allow:/index.php允许搜索引擎抓取index.php文件
4、通配符*
用星号*来做通配符,表示0个或任意多个字符!
例如:Disallow:/*.jpg网站所有的jpg文件被禁止抓取。
5、结束符$
用美元符号$来做结束符网站SEO优化 爬虫协议文件,表示以它前面的字符为结束的url。
1、User-Agent
User-Agent是指定搜索引擎种类的,且User-Agent:后面要有一个空格。
如果只想指定百度搜索引擎,就这样写
User-Agent:Baiduspider
如果既想指定百度,又想指定谷歌,就像这样写
User-Agent:Baiduspider
User-Agent:Googlebot
如果还要指定其他搜索引擎网站SEO优化 爬虫协议文件,直接再添加一条User-Agent记录,但想指定多个则继续添加多个User-Agent记录,可这样重复添加显得很繁琐,遇见这种情况,我们只需要用星号*代替,就可以表示指定所有搜索引擎,这样我们就只需要写一条记录即可,写法如下:
User-Agent:*
重点:robots.txt文件屏蔽目录带不带/斜杠的区别:
首先,我们来看下面两条记,一个带斜杠/,而另一个不带斜杠:
Disallow:/admin
Disallow:/admin/
根据robots协议写法规范,区别如下:
1、不带/斜杠的Disallow:/admin表示屏蔽admin这个名字开头的所有目录。如:/admin1、/admin2、/admina或者/admin/以下的所有目录都是被屏蔽的。
2、带/斜杠的Disallow:/admin/表示屏蔽/admin/这个目录下的所以内容。如:/admin/abc、/admin/gsd/或者是/admin/4gy6/1df等,/admin/以下的目录都是被屏蔽的。但是它并不屏蔽本目录的内容,如:/admin还是允许抓取的
您好!请登录