实用的 robots.txt 规则

下面是一些常见的实用 robots.txt 规则：

实用规则
禁止抓取整个网站	请注意，在某些情况下，Google 即使未抓取网站中的网址，仍可能将其编入索引。注意：这不适用于各种 AdsBot 抓取工具，此类抓取工具必须明确指定。 User-agent: * Disallow: /
允许抓取整个网站（使用空的 `Disallow` 规则）	这明确允许所有抓取工具访问整个网站。在功能上，这相当于根本没有 robots.txt 文件，或者使用了 `Allow: /` 规则。 User-agent: * Disallow:
禁止抓取某一目录及其内容	在目录名后添加一道正斜线，即可禁止抓取整个目录。注意：请勿使用 robots.txt 禁止访问私密内容；请改用正确的身份验证机制。对于 robots.txt 文件所禁止抓取的网址，Google 仍可能会在不进行抓取的情况下将其编入索引；另外，由于 robots.txt 文件可供任何人随意查看，因此可能会泄露您的私密内容的位置。 User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/
禁止抓取某一网页	例如，禁止抓取位于 `https://example.com/useless_file.html` 的 `useless_file.html` 页面和 `junk` 目录中的 `other_useless_file.html`。 User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html
禁止抓取除子目录以外的整个网站	抓取工具只能访问 `public` 子目录。 User-agent: * Disallow: / Allow: /public/
仅允许某一抓取工具访问网站内容	只有 `Googlebot-News` 可以抓取整个网站。 User-agent: Googlebot-News Allow: / User-agent: * Disallow: /
允许除某一抓取工具以外的其他所有抓取工具访问网站内容	`Unnecessarybot` 不能抓取相应网站，所有其他漫游器都可以。 User-agent: Unnecessarybot Disallow: / User-agent: * Allow: /
禁止抓取整个网站，但允许 `Storebot-Google` 访问内容	实施此规则会阻止您的网页显示在 Google 搜索结果中，但 `Storebot-Google` 网页抓取工具仍能分析这些网页，以便在 Google 购物中展示您的商品。 User-agent: * Disallow: / User-agent: Storebot-Google Allow: /
禁止 Google 访问您网站上的所有图片（包括 Google 图片和 Google 探索等所有会展示图片的位置）	如果无法抓取图片和视频，则 Google 无法将其编入索引。 User-agent: Googlebot-Image Disallow: /
禁止 Google 图片访问某一特定图片	例如，禁止访问 `dogs.jpg` 图片。 User-agent: Googlebot-Image Disallow: /images/dogs.jpg
禁止抓取某一特定文件类型的文件	例如，禁止抓取所有 `.gif` 文件。 User-agent: Googlebot Disallow: /*.gif$
使用 `*` 和 `$` 通配符匹配以特定字符串结尾的网址	例如，禁止抓取所有 `.xls` 文件： User-agent: Googlebot Disallow: /.xls$ `$` 通配符表示网址结束。这意味着，如果网址在相应模式之后还有其他字符（比如网址参数），将无法匹配。例如，`https://example.com/cats.xls?personality=loki` 不会被规则 `/.xls$` 屏蔽。
将多个用户代理合并到一个组中	将多个抓取工具的规则整合到同一个组中，能让文件更精简、更易于管理，因为组内的所有规则都会应用于其中列出的每个用户代理。这与列出两次用户代理并分别指定相应规则的效果相同。 User-agent: Googlebot User-agent: Storebot-Google Allow: /cats Disallow: /