robots文件的书写及规范案例

原创 admin  2019-09-26 10:43  阅读 6 次

什么是robots?

简单说,robots就是你和蜘蛛签订的一份文件,就是告诉爬虫网站上哪些内容可以收录,哪些内容不需要收录。

 

robots的作用

1:设置访问权限保护网站安全。

2:禁止搜索引擎爬取无效页面,集中权值到主要页面(对SEO方面重要原因)。

robots文件放在哪

robots.txt可以通过FTP工具直接放置在网站根目录。

放置后可通过:①域名/robote.txt 方式查看。②通过百度站长工具查看检测。

robots的文件格式

User-agent:该项的值用于描述搜索引擎robot的名字

Disallow:该项的值用于描述不希望被抓取的URL链接

Allow:该项的值用于描述希望被抓取的URL链接

$ 通配符:匹配URL结尾的字符

* 通配符:匹配0个或多个任意字符

通过以上命令可以组合多种写法,允许哪个搜索引擎访问或禁止哪个页面。

百度官方文件:https://ziyuan.baidu.com/college/articleinfo?id=1516

robots示例

1、禁止搜索引擎抓取特定目录

在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即搜索引擎不会访问这三个目录。

User-agent: *
Disallow: /admin/
Disallow: /tmp/
Disallow: /abc/

2、禁止admin目录,但允许抓取admin目录下的seo子目录

User-agent: *
Allow: /admin/seo/
Disallow: /admin/

3、禁止抓取/abc/目录下的所有以".htm”为后缀的URL(包含子目录)

User-agent: *
Disallow: /abc/*.htm$

4、禁止抓取网站中所有的动态页面

User-agent: *
Disallow: /*?*

屏蔽所有带“?”的文件,这样就屏蔽所有的动态路径。

5、禁止百度蜘蛛抓取网站所有的图片:

User-agent: Baiduspider
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$

6、要在阻止网站页面被抓取的同时仍然在这些页面上显示 AdSense 广告

User-agent: *
Disallow: /folder1/

User-agent: Mediapartners-Google
Allow: /folder1/

什么时候需要robots协议

1:无用页面:如联系我们、用户协议等页面,这些页面相对于搜索引擎优化来讲,作用不大,此时可以使用Disallow命令禁止这些页面被搜索引擎抓取。

2:动态页面:企业类型站点屏蔽动态页面,有利于网站安全。且多个网址访问同一页面,会造成权重分散。因此,一般情况下,屏蔽动态页面,保留静态或伪静态页面。

3:网站后台页面:网站后台也可以归类于无用页面,禁止收录有百益而无一害。

robots补充-关于sitemap

把sitemap的位置信息放在robots.txt里,利用sitemap里的信息搜索引擎可以更加智能地抓取网站内容。

来源:https://www.huanp.com/seojiaocheng/3744.html
声明:欢迎分享本文,转载请保留出处!

发表评论


表情