什么是Robots协议

责任编辑：李飒点击：6163 发表时间：2017-12-08

Robots协议的全称是“网络爬虫排除标准”(Robots Exclusion Protocol)，网站通过Robots协议让搜索引擎知道哪些页面能抓取，哪些页面不能抓取。

公司网站设计案例

robots.txt文件是一个文本文件，使用任何一个常见的文本编辑器，可以创建和编辑它。robots.txt是一个协议，而不是一个命令。robots.txt是搜索引擎中访问网站的时候要查看的个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。

当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人会按照该文件中的内容来确定访问的范围;如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

标签

Robots.txt文件主要是限制整个站点或者目录的搜索引擎访问情况，而Robots Meta标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样，Robots Meta标签也是放在页面中，专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。

Robots Meta标签中没有大小写之分，name=”Robots”表示所有的搜索引擎，可以针对某个具体搜索引擎写为name=”BaiduSpider”。content部分有四个指令选项：index、noindex、follow、nofollow，指令间以“,”分隔。

index指令告诉搜索机器人抓取该页面;

follow指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;

Robots Meta标签的缺省值是index和follow，只有inktomi除外，对于它，缺省值是index、nofollow。

功能

Robots协议用来告知搜索引擎哪些页面能被抓取，哪些页面不能被抓取;可以屏蔽一些网站中比较大的文件，如：音乐，视频等，节省服务器带宽;也可以屏蔽站点的一些死链接。方便搜索引擎抓取网站内容;设置网站地图连接，方便引导蜘蛛爬取页面。

Robots协议是网站出于安全和隐私考虑，防止搜索引擎抓取敏感信息而设置的。搜索引擎则会按照Robots协议给予的权限进行抓取。Robots协议代表了一种契约精神，互联网企业只有遵守这一规则，才能保证网站及用户的隐私数据不被侵犯。Robots协议是维护互联网世界隐私安全的重要规则，如果被破坏，其后果是不可想象的。

上一篇：这些返回码的含义都是什么?

下一篇：企业网站建设能为其带来什么？