这是迄今为止避免不必要的访问的最

Google不支持robots.txt 中的 noindex、nofollow 或crawl-delay。这家搜索引擎巨头在 2019 年的一篇博客文章中明确表达了这一点。但是，您还可以通过其他方法来控制对网站的哪些部分进行爬网和索引： robots 元标记中的 noindex 该页面可以被抓取，但未编入索引，因此无法出现在 SERP 中设置状态码 404 或 410 这两个状态再可用。因此，此类网址在被抓取后就会从 Google 索引中删除。密码保护受密码保护的页面爬虫无法访问，也无法对其进行爬网和索引。 Search Console 中的删除工具使用这个相当新的工具，您可以在 Search Console 中的“索引” > “删除”下提交您不再希望（暂时）出现在 SERPS 中的页面。

文件的最大问题可能来自于意外

如果您想保护您的私人照片、视频和上黎巴嫩电话号码述各方的 HTML 文档，我们建议您设置密码保护。佳方法。 robots.txt 可能存在哪些问题？在我看来，robots.txt 地将部分甚至全部网站排除在抓取之外。立即通知您 robots.txt 更改的工具可能会在这方面为您提供帮助。如果您使用 disallow 命令从搜索引擎爬网程序中排除了敏感页面，恶意爬网程序可能会利用这一点并从这里开始。否则，冲突的路径信息和不正确的结构（例如太多空格）可能会导致问题。我应该使用 Robots.txt 吗？这个问题没有通用的答案，因为这在很大程度上取决于您拥有的网站类型。原则上，对于一个简单的博客来说，拥有一个允许所有爬虫抓取所有内容的 robots.txt 以及对 XML 。

代码都意味着所请求的资源不

正如我所说，它看起来像这样：不要错巴西电话号码列表过更多帖子：在线营销时事通讯你喜欢这篇博文吗？如果您想定期了解在线营销的最新趋势，请立即订阅我们的时事通讯。超过 18,000 名订户信任我们。单击此处获取注册表。 # robots.txt 到感谢页面仅登录用户可见的区域内部搜索结果页面标签页各种过滤器选项的页面以避免重复内容通过“添加到愿望清单”生成的页面。原则上，我不建议您在上述任何情况下使用 robots.txt 阻止内容。尽管乍一看这些内容可能与 Googlebot 无关，但 Google 通常有必要了解您的网站的内容。如果您的抓取存在严重问题并且 Googlebot 抓取过多，我只会阻止使用 robots.txt 的页面。

类似文章