SEO教程

seo基础教程叁金手指专业二十:什么是Robots.txt?

作者:seo指南 2020-06-28

相信有许多站长都遇到过这样的问题、那就是建站后搜索引擎不收录你的网站。遇到这样的问题让很多站长无从下手...

坚信有很多站长都遇到过那样的难题、那便是建网站后百度搜索引擎不百度收录你的网站。碰到那样的难题让许多站长找不到方向,不清楚怎么解决。检索到的一堆材黑帽SEO料都不可以解决困难,那麼今日就带著小伙伴们一起掌握Robots协议,看完了文中、也许你也就找到你网站不百度收录的缘故了!

什么叫Robots协议?

Robots协议(也称之为网络爬虫协议、智能机器人协议等)的全名是“爬虫技术清除规范”(Robots Exclusion Protocol),

Robots.txt 是储放在网站根目录下的一个纯文本文档。尽管它的设定非常简单,可是功效却很强劲。网站根据Robots协议告知百度搜索引擎什么网站网页页面能够 爬取,什么网站网页页面不可以被爬取。因此小伙伴们不必忽略掉这一小关键点大功效的物品!

robots.txt文件是一个文本文档,应用一切一个较为普遍的文本编辑都能够建立和编写它 例如Windows系统软件内置的Notepad及其Notepad 。robots.txt是一个协议,而不是一个指令。估算许多站长也是存有误会的吧。

有的站长应用的建站程序将会内置的有Robots.txt文件,有的根本就沒有Robots.txt文件。这促使网络爬虫没法对网站开展抓取数据库索引。顺理成章的不容易百度收录你得网站(吃完哑巴亏还想对你网站友善?)因此站长们在网站创建健全后立即的查验Robots.txt的存有和Robots.txt內容是不是标准。

如何使用Robots协议?

Robots.txt 文档seo基础教程叁金手指专业二十:应当放到网站根目录下,而且该文件是能够 根据你自己的网站域名开展浏览的。因此小伙伴们不必乱堆这一文档!

比如:假如您的网站详细地址是 https://www.xxxx.com/那麼,该文件务必可以根据 https://www.xxxx.com/robots.txt 开启并见到里边的內容。

Robots.txt的标准书写文件格式是啥?

Robots.txt由User-agent、Disallow、Sitemap注解符构成,每一个注解都是有非常关键的影响力,是不容忽视的。因此小伙伴们不必随便变化或是彻底搞不懂robots.txt怎么写的情况下不必去乱跑!

User-agent:

用以叙述百度搜索引擎搜索引擎蜘蛛的姓名,在" Robots.txt "文档中,如果有好几条User-agent纪录表明有好几个百度搜索引擎搜索引擎蜘蛛会遭受该协议的限定,对该文件而言,最少要有一条User-agent纪录。假如此项的值设为*,则该协议对一切百度搜索引擎搜索引擎蜘蛛均合理,在" Robots.txt "文档中,"User-agent:*"那样的纪录只有有一条。

Disallow:

用以叙述不期待被seo基础教程叁金手指专业二十:浏览到的一个URL,这一URL能够 是一条详细的相对路径,还可以是一部分的,一切以Disallow开始的URL均不容易被Robot浏览到。

例一:"Disallow:/help"就是指/help.html 和/help/index.html都不允许百度搜索引擎搜索引擎蜘蛛爬取。

例二:"Disallow:/help/"就是指容许百度搜索引擎搜索引擎蜘蛛爬取/help.html,而不可以爬取/help/index.html。

例三:Disallow纪录为空表明该网站的全部网页页面都容许被百度搜索引擎爬取,在"/robots.txt"文档中,最少要有一条Disallow纪录。假如"/robots.txt"是一个空文档,则针对全部的百度搜索引擎搜索引擎蜘蛛,该网站全是对外开放的能够 被爬取的。

Sitemap:

Sitemap:是便捷站长通告百度搜索引擎她们网站上有什么可爬取的网页页面。非常简单的 Sitemap 方式,便是XML 文档,在这其中列举网站中的网站地址及其有关每一个网站地址的别的数据库(之前升级的時间、变更的頻率及其相对性于网站上别的网站地址的关键水平为什么等),便于百度搜索引擎能够 更为智能化地爬取网站。

比如:sitemap详细地址是https://www.qiebk.com/sitemap.xml

则应当在Robots.txt中载入Sitemap: https://www.qiebk.com/sitemap.xml 百度搜索引擎抓取到sitemap时便会前去抓取大量的网站网页页面

Robots.txt综合性事例 :

例一:根据"/robots.txt"严禁全部百度搜索引擎搜索引擎蜘蛛爬取"/bin/cgi/"文件目录,及其 "/tmp/"文件目录和 /foo.html 文档,并告知百度搜索引擎sitemap详细地址。设定方式以下:

User-agent: *

Disallow: /bin/cgi/

Disallow: /tmp/

Disallow: /foo.html

Sitemap: https://www.xxxx.com/sitemap.xml

例二:根据"/robots.txt"只容许某一百度搜索引擎爬取,而严禁别的的百度搜索引擎爬取。如:只容许名叫"slurp"的百度搜索引擎搜索引擎蜘蛛爬取,而回绝别的的百度搜索引擎搜索引擎蜘蛛爬取 "/cgi/" 文件目录下的內容,设定方式以下:

User-agent: *

Disallow: /cgi/

User-agent: slurp

Disallow:

例三:严禁一切百度搜索引擎爬取我的网站,设定方式以下:

User-agent: *

Disallow: /

例四:只严禁seo基础教程叁金手指专业二十:某一百度搜索引擎爬取我的网站如:只严禁名叫“slurp”的百度搜索引擎搜索引擎蜘蛛爬取,设定方式以下:

User-agent: slurp

Disallow: /

1.本站(SEO指南)遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创SEO文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

相关文章
  • 基本的SEO教程:seo sem网站中面包屑导航栏、侧边栏

    基本的SEO教程:seo sem网站中面包屑导航栏、侧边栏

  • 卡卡seo优化教程:织梦(dedecms)安装优化实例教程

    卡卡seo优化教程:织梦(dedecms)安装优化实例教程

  • seo优化教程:常见CMS系统的分析判断

    seo优化教程:常见CMS系统的分析判断

  • seo优化教程seo技巧:网站html面包屑导航栏代码

    seo优化教程seo技巧:网站html面包屑导航栏代码