实用的 robots.txt 规则
下面是一些常见的实用 robots.txt 规则:
| 实用规则 | |
|---|---|
| 禁止抓取整个网站 |
请注意,在某些情况下,Google 即使未抓取网站中的网址,仍可能将其编入索引。 User-agent: * Disallow: / |
允许抓取整个网站(使用空的 Disallow 规则) |
这明确允许所有抓取工具访问整个网站。在功能上,这相当于根本没有 robots.txt 文件,或者使用了 User-agent: * Disallow: |
| 禁止抓取某一目录及其内容 |
在目录名后添加一道正斜线,即可禁止抓取整个目录。 User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/ |
|
禁止抓取某一网页 |
例如,禁止抓取位于 User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html |
|
禁止抓取除子目录以外的整个网站 |
抓取工具只能访问 User-agent: * Disallow: / Allow: /public/ |
| 仅允许某一抓取工具访问网站内容 |
只有 User-agent: Googlebot-News Allow: / User-agent: * Disallow: / |
| 允许除某一抓取工具以外的其他所有抓取工具访问网站内容 |
User-agent: Unnecessarybot Disallow: / User-agent: * Allow: / |
|
禁止抓取整个网站,但允许 |
实施此规则会阻止您的网页显示在 Google 搜索结果中,但 User-agent: * Disallow: / User-agent: Storebot-Google Allow: / |
|
禁止 Google 访问您网站上的所有图片(包括 Google 图片和 Google 探索等所有会展示图片的位置) |
如果无法抓取图片和视频,则 Google 无法将其编入索引。 User-agent: Googlebot-Image Disallow: / |
|
禁止 Google 图片访问某一特定图片 |
例如,禁止访问 User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
|
禁止抓取某一特定文件类型的文件 |
例如,禁止抓取所有 User-agent: Googlebot Disallow: /*.gif$ |
使用 * 和 $ 通配符匹配以特定字符串结尾的网址
|
例如,禁止抓取所有 User-agent: Googlebot Disallow: /*.xls$ |
| 将多个用户代理合并到一个组中 |
将多个抓取工具的规则整合到同一个组中,能让文件更精简、更易于管理,因为组内的所有规则都会应用于其中列出的每个用户代理。这与列出两次用户代理并分别指定相应规则的效果相同。 User-agent: Googlebot User-agent: Storebot-Google Allow: /cats Disallow: / |