如何configurationrobots.txt以允许一切?

Google网站站长工具中的我的robots.txt显示以下值:

 User-agent: * Allow: / 

这是什么意思? 我没有足够的知识,所以寻求你的帮助。 我想让所有机器人抓取我的网站,这是正确的configuration?

该文件将允许所有爬虫访问

 User-agent: * Allow: / 

这基本上允许所有用户代理(*)到网站的所有部分(/)。

如果您想允许每个机器人抓取所有内容,这是在robots.txt中指定它的最佳方法:

 User-agent: * Disallow: 

请注意, Disallow字段有一个空值,这意味着根据规范 :

任何空值,表示可以检索所有的URL。


你的方式( Allow: /而不是Disallow:也可以工作,但Allow不是原始的robots.txt规范的一部分 ,所以它不被所有的机器人支持(很多stream行的机器人都支持它, 就像Googlebot一样 )。 也就是说,无法识别的字段必须被忽略,而对于不认可Allow机器人来说,结果在这种情况下也是一样的:如果没有任何东西被禁止被抓取(使用Disallow ),所有的东西都被允许被抓取。
但是,正式(根据原始规范),这是一个无效的logging,因为至less需要一个Disallow字段:

logging中至less需要有一个Disallow字段。

这意味着您允许每个( * )用户代理/爬虫访问您的网站的根( / )。 你还好。