登录/注册 搜索
首页 / SEO优化 / robots协议也称爬虫协议、爬虫规则等是什么
返回

robots协议也称爬虫协议、爬虫规则等是什么

浏览次数:40 分类:SEO优化

robots协议也称爬虫协议、爬虫规则等,是指网站可建立一个robots.txt文件来告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,而搜索引擎则通过读取robots.txt文件来识别这个页面是否允许被抓取。但是,这个robots协议不是防火墙,也没有强制执行力,搜索引擎完全可以忽视robots.txt文件去抓取网页的快照。

2、Disallow

Disallow用来说明不允许搜索引擎蜘蛛抓取的URL路径。

例如:Disallow:/index.php禁止搜索引擎抓取index.php文件

3、Allow

Allow用来说明允许搜索引擎蜘蛛爬行的URL路径

例如:Allow:/index.php允许搜索引擎抓取index.php文件

4、通配符*

用星号*来做通配符,表示0个或任意多个字符!

例如:Disallow:/*.jpg网站所有的jpg文件被禁止抓取。

5、结束符$

用美元符号$来做结束符网站SEO优化 爬虫协议文件,表示以它前面的字符为结束的url。

1、User-Agent

User-Agent是指定搜索引擎种类的,且User-Agent:后面要有一个空格。

如果只想指定百度搜索引擎,就这样写

User-Agent:Baiduspider

如果既想指定百度,又想指定谷歌,就像这样写

User-Agent:Baiduspider

User-Agent:Googlebot

如果还要指定其他搜索引擎网站SEO优化 爬虫协议文件,直接再添加一条User-Agent记录,但想指定多个则继续添加多个User-Agent记录,可这样重复添加显得很繁琐,遇见这种情况,我们只需要用星号*代替,就可以表示指定所有搜索引擎,这样我们就只需要写一条记录即可,写法如下:

User-Agent:*

重点:robots.txt文件屏蔽目录带不带/斜杠的区别:

首先,我们来看下面两条记,一个带斜杠/,而另一个不带斜杠:

Disallow:/admin

Disallow:/admin/

根据robots协议写法规范,区别如下:

1、不带/斜杠的Disallow:/admin表示屏蔽admin这个名字开头的所有目录。如:/admin1、/admin2、/admina或者/admin/以下的所有目录都是被屏蔽的。

2、带/斜杠的Disallow:/admin/表示屏蔽/admin/这个目录下的所以内容。如:/admin/abc、/admin/gsd/或者是/admin/4gy6/1df等,/admin/以下的目录都是被屏蔽的。但是它并不屏蔽本目录的内容,如:/admin还是允许抓取的

https://www.xiaofeiseo.com

您好!请登录

点击取消回复

    购物车

    X

    我的足迹

    X
    FUNION飞优免费测评网站质量:
    定制方案
    x

    力荐定制全网营销型网站已有10967548位客户定制营销型网站方案

    网站类型*
    建站目的*
    建站周期*
    行业类型*
    公司名称* 姓名* 手机号码*
    适合您的网站类型 ? 建站类型 ? 建站目的 ? 建站要求? 建站预算? 预期周期? 交付周期?
    我要定制

    飞优

    网站建设 | SEO优化 | SEM托管 | 信息流推广 | 口碑营销

    姓名
    邮箱
    手机
    留 言: