首页 > 网站优化干货 > 网站优化资讯>

SEO高手为什么要懂robots?robots协议分析与写法

北京网站SEO

 

timg94535736.jpg

 

robots协议是指搜索引擎与网站之间的协议文件,也就是爬虫协议,用于指定spider在网站上的抓取范围。其作用是可以屏蔽对网站对搜索引擎不友好的链接,比如动态和静态链接同时存在时屏蔽任务任何不想被收录的页面。

  robots协议是引导蜘蛛抓取网站地图,也用来保护网站数据和敏感信息,确保用户个人信息和隐私不被侵犯。存在于网站根目录正,以robots.txt格式存在,注意robots.txt文件名不能随便更改。

  写法:1.User-agent:表示针对某个爬虫,

  2.Disallow:表示禁止抓取

  3.Allow:允许抓取

  4.*通配符,表示所有

  5.$结束符,表示以什么结尾

  6、/根域下是指网站根目录

  注:冒号是英文状态下的,并且后面有一个空格,首字母需要大写。

  例:

  1、

  User-agent:*

  Disallow:/

  针对所有爬虫禁止抓取根目录下的所有链接

  2、

  User-agent:Baiduspider

  Disallow:/

  禁止百度蜘蛛抓取网站所有连接

  3、

  User-agent:*

  Disallow:/a/

  针对所有的爬虫禁止抓取网站根目录下的a目录

  4、

  User-agent:*

  Disallow:/a

  针对所有的爬虫禁止抓取网站根目录下以“a”开头的文件

  5、

  User-agent:*

  Disallow:/*?*(?表示动态符)

  禁止抓取网站根目录下带?号的动态链接

  6、

  User-agent:*

  Disallow:/*.js$

  禁止抓取网站根目录下面以.js结尾的文件

  7、

  User-agent:*

  Disallow:/a/

  Allow:/a/b/

  禁止抓取网站根目录下面“a”,允许抓取“a”目录下面的“b”目录。

  8、

  User-agent:*

  Disallow:/a/

  Allow:/a/b

  禁止抓取网站根目录下面“a”目录,允许抓取“a”目录中以“b”开头的文件