您的位置 广州SEO > SEO入门 > 什么是Robots文件有什么用,Robots文件写法大全

什么是Robots文件有什么用,Robots文件写法大全

  一个完整的网站,要有301重定向、404页面与Robots文件都是必须要有的。那你知道为什么要做这个页面吗?301页面是为了网站集权,404页面是为了当网站出现了死链的时候引导蜘蛛爬行网站的其他页面,增强网站的用户体验,那你知道什么是Robots文件有什么用,Robots文件写法大全!

  什么是Robots文件呢?

  robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。

  当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

1.

  我们说的简单一点理解就是robots.txt文件是存放在网站根目录下面的一个TXT文本文档。它是网站和蜘蛛之间的一个协议。推荐阅读(新站排名不稳定原因)

  Robots文件有什么用呢?

  如果你网站根目录有robots.txt这样一个文件,那蜘蛛在爬行你网站的时候就会首先访问这个文件(robots文件一般都要存放在根目录,蜘蛛第一个访问的文件,因此这个文件是很重要的)。robots文件的作用是告诉搜索引擎蜘蛛,网站的哪些文件夹可以抓取,哪些文件夹不能抓取,从而确保我们网站的隐私内容不会被收录。

  Robots文件写法大全

  1:下面先来看看名词定义解释,不同的搜索引擎有不同的蜘蛛。

  【1】:User-Agent: 对蜘蛛进行的规定

  (1)对百度蜘蛛的规定User-agent: Baiduspider 。

  (2)谷歌User-Agent: Googlebot

  (3)必应User-agent: Bingbot

  (4)360 User-Agent: 360Spider

  (5)宜搜User-Agent: Yisouspider

  (6)搜狗User-Agent: Sogouspider

  (7)雅虎User-Agent: Yahoo! Slurp

image.

  User-Agent: * 指对所有的蜘蛛

  【2】:Disallow: 指禁止抓取。

  【3】:Allow: 指允许抓取 。

  2:写法:以上三个格式综合使用,例如:我们要屏蔽/skin/文件夹里面的一部分文件,但是又希望抓取到/skin/文件夹里面的/css/文件夹,书写技巧:先禁止抓取/skin/文件夹,后面再允许抓取/css/ 文件夹就可以了。

  Disallow: /skin/ 表示禁止抓取/skin/文件夹

  Allow: /css/表示允许抓取/skin/文件夹里面的/css/文件夹

  注意点:前后都有斜杠表示文件夹。

  3:符号名词解释:

  (1)*通配符 : 代表所有的 。 例如:

  User-Agent: * 就是表示对所有的蜘蛛

  Allow: /skin/* 表示允许包括/skin/文件夹以下的所以文件  推荐关注(网站如何快速收录)

  (2)$终止符: 表示结束。例如不允许抓取.js结尾的文件,写成: Disallow: /*.js$

1547961320689845.

  四:常见屏蔽对象:

  1:中文的链接-路径,抓取不友好,或者我们不需要它来排名。例如屏蔽“联系我们”:Disallow: /lianxi/

  2:搜索结果页面,重复的质量低的。

  技巧:先找到规律。假如我们不允许抓取以下的 ,写成: Disallow: /course/search?key=*

  3:动态路径,链接规律:?%/ ?等等 例如屏蔽带有?号的动态链接: Disallow: /*?*

  4:js文件的 Disallow: /*.js$ 备注:官方的说法,关于js使用建议

  5:网站的目录:模板目录、插件目录、后台目录。。。。。。

  (1):wordpress:如图:

image.

  (2)织梦程序的。如图:

image.

  五:编写误区:

  区别性:例如

  Disallow: /ab=Disallow: /ab*

  Disallow: /ab/ 前后有斜杠的/ab/代表单个文件夹

  Disallow: /ab = Disallow: /* 斜杠代表了整个网站,范围更广。

  例:

  Disallow: /ab 这个规则对于以下两个链接都是屏蔽的:Disallow: /abc Disallow: /ab/123

  Disallow: /ab/ 这个规则,只对 Disallow: /ab/123 生效,对于Disallow: /abc是无效的。

热门文章

发表评论

3条评论

  1. 展图

      Robots.txt 用于指导网络爬虫(蜘蛛、搜索引擎)访问网站指定目录,英文也称之为“The Robots Exclusion Protocol”。robots.txt 的格式采用面向行的语法:空行、注释行(以 # 打头,具体使用方法和 UNIX 中的惯例一样)、规则行。规则行的格式为:Field: value。常见的规则行:User-Agent、Disallow、Allow行。

  1. 偏执

      spider(蜘蛛)在访问一个网站时,会首先会检查该网站目录是否有一个文件叫做robots.txt的纯文本文件,这个文件用于指定spider(蜘蛛)在你网站是的抓取的范围.

  1. 稻草人

      robots文件是一个搜索引擎协议,在网站优化中还是有不错的帮助!1、死链。2、助搜索引擎抓取

cache
Processed in 0.009831 Second.