您的位置 广州SEO > SEO入门 > 什么是Robots协议,Robots限制添加读取规则?

什么是Robots协议,Robots限制添加读取规则?

  身为一个SEO人员,要清楚的了解Robots协议。接下来我们就来聊一聊什么是Robots协议,Robots限制添加读取规则?希望可以帮助到阅读本文的你!

  什么是Robots协议呢?

  robots文件简单的来说就是给你的网站做一个权限清单,一般是针对做SEO优化的。在这个文件里面写上哪些文件、哪些形式的链接允许搜索引擎抓取,哪些不允许。

  我们来看下百度百科的解释:

image.

  Robots格式有哪些呢?

  User-agent:

  是定义搜索引擎的,指定搜索引擎的爬取程序,如果想定义所有搜索引擎请用 * ,

  记住他不能单独使用,他要配合前面两个语法使用(随便一个就行了)

  Disallow:

  是禁止搜索引擎抓取的路径。注意: / 表示根目录 (代表网站所有目录)。Disallow 禁止搜索引擎把我们的网页放出来,就是我们不允许搜索引擎收录,请记住是不允许搜索引擎收录,并不代表他不能爬取了。这是两个概念,他还是能爬的,他不是命令,他只是协议 推荐关注(SEO建站教程

image.

  Allow:

  是允许的意思,但需要注意: 他的使用一般都是结合 Disallow 他不能单独出现,意思是禁止爬取那个内容,加上 Allow 后意思是,除了可以爬取这个外其余的都禁止!

  Robots限制添加读取规则?

  请牢牢记住:robots.txt必须放置在站点的根目录下,而且文件名必须全部小写。Disallow后面的冒号必须为英文状态的。

  我们先来理解User-agent和Disallow的定义。

  User-agent:该项用于描述搜索引擎蜘蛛的名字。

  1、规定所有蜘蛛:User-agent:*;

  2、规定某一个蜘蛛:User-agent:BaiduSpider。

  Disallow:该项用于描述不希望被抓取和索引的一个URL,这个URL可以是一条完整的路径。这有几种不同定义和写法:

  1、Disallow:/AAA.net,任何以域名+Disallow描述的内容开头的URL均不会被蜘蛛访问,也就是说以AAA.net目录内的文件均不会被蜘蛛访问;

  2、Disallow:/AAA.net/则允许robots抓取和索引AAA.net/index.html,而不能抓取和索引AAA.net/admin.html;

  3、如果Disallow记录为空,说明该网站的所有部分都允许被访问。在robots.txt文件中,至少应有Disallow记录,如果robots.txt为空文件,则对所有的搜索引擎robot来说,该网站都是开放的。

image.

  Robots的写法规则:

  User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符 推荐关注(潍坊SEO培训

  Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录

  Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录

  Disallow: /ABC/ 这里定义是禁止爬寻ABC整个目录

  Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。

  Disallow: /*?* 禁止访问网站中所有的动态页面

  Disallow: /jpg$ 禁止抓取网页所有的.jpg格式的图片

  Disallow:/ab/adc.html 禁止爬去ab文件夹下面的adc.html文件。

  User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符

  Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录

  Allow: /tmp 这里定义是允许爬寻tmp的整个目录

  Allow: .htm$ 仅允许访问以".htm"为后缀的URL。

  Allow: .gif$ 允许抓取网页和gif格式图片robots.txt文件用法举例

  推荐阅读:

  网站301重定向怎么做,301重定向代码

  什么是SEM竞价推广,SEM和SEO有什么区别呢

  Sitemap生成工具有哪些,网站地图的制作方法

  网站优化为什么要设置404页面,404页面怎么制作呢

  Nofollow是什么意思,Nofollow标签的作用,怎么加

热门文章

发表评论

0条评论

cache
Processed in 0.019599 Second.