实用的 robots.txt 规则

下面是一些常见的实用 robots.txt 规则:

实用规则
禁止抓取整个网站

请注意,在某些情况下,Google 即使未抓取网站中的网址,仍可能将其编入索引。

User-agent: *
Disallow: /
允许抓取整个网站(使用空的 Disallow 规则)

这明确允许所有抓取工具访问整个网站。在功能上,这相当于根本没有 robots.txt 文件,或者使用了 Allow: / 规则。

User-agent: *
Disallow:
禁止抓取某一目录及其内容

在目录名后添加一道正斜线,即可禁止抓取整个目录。

User-agent: *
Disallow: /calendar/
Disallow: /junk/
Disallow: /books/fiction/contemporary/

禁止抓取某一网页

例如,禁止抓取位于 https://example.com/useless_file.htmluseless_file.html 页面和 junk 目录中的 other_useless_file.html

User-agent: *
Disallow: /useless_file.html
Disallow: /junk/other_useless_file.html

禁止抓取除子目录以外的整个网站

抓取工具只能访问 public 子目录。

User-agent: *
Disallow: /
Allow: /public/
仅允许某一抓取工具访问网站内容

只有 Googlebot-News 可以抓取整个网站。

User-agent: Googlebot-News
Allow: /

User-agent: *
Disallow: /
允许除某一抓取工具以外的其他所有抓取工具访问网站内容

Unnecessarybot 不能抓取相应网站,所有其他漫游器都可以。

User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

禁止抓取整个网站,但允许 Storebot-Google 访问内容

实施此规则会阻止您的网页显示在 Google 搜索结果中,但 Storebot-Google 网页抓取工具仍能分析这些网页,以便在 Google 购物中展示您的商品。

User-agent: *
Disallow: /

User-agent: Storebot-Google
Allow: /

禁止 Google 访问您网站上的所有图片(包括 Google 图片和 Google 探索等所有会展示图片的位置)

如果无法抓取图片和视频,则 Google 无法将其编入索引。

User-agent: Googlebot-Image
Disallow: /

禁止 Google 图片访问某一特定图片

例如,禁止访问 dogs.jpg 图片。

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

禁止抓取某一特定文件类型的文件

例如,禁止抓取所有 .gif 文件。

User-agent: Googlebot
Disallow: /*.gif$
使用 *$ 通配符匹配以特定字符串结尾的网址

例如,禁止抓取所有 .xls 文件:

User-agent: Googlebot
Disallow: /*.xls$
将多个用户代理合并到一个组中

将多个抓取工具的规则整合到同一个组中,能让文件更精简、更易于管理,因为组内的所有规则都会应用于其中列出的每个用户代理。这与列出两次用户代理并分别指定相应规则的效果相同。

User-agent: Googlebot
User-agent: Storebot-Google
Allow: /cats
Disallow: /