Tag: robots.txt

什么是hackers.txt文件的用法?

第一 不,我不是要求你教我黑客攻击,我只是对这个文件及其内容感到好奇。 我的旅程 当我潜入新的HTML5 Boilerplate时,我遇到了humans.txt。 我GOOGLE了,我来到这个网站http://humanstxt.org/ 。 我的注意力立即转到这张照片上: 我是否正确读取这个? Hackers.txt ? 于是,我重新开始了谷歌的旅程,停在这篇文章上 当我开始阅读这篇文章时,我感觉到黑客和cookies之间的区别。 后来我觉得我可能是错的,这个地方就是这个hackers.txt文件是黑客的留言本吗? 还有关于hackers.txt文件的其他例子,我在这里find 有些文件包含代码,其他文件只是伤害了全部信息。 现在我真的很困惑,留言板,黑客教程或只是历史? 题 这个hackers.txt文件有什么用?

robots.txt和.htaccess语法突出显示

有没有一种方法来颜色代码/突出显示robots.txt和.htaccess语法? 例如一个SublimeText2插件。 我发现这个,但不知道如何安装它: https : //github.com/shellderp/sublime-robot-plugin

忽略具有特定参数的robot.txt中的url?

我想谷歌忽略像这样的url: http://www.mydomain.com/new-printers?dir=asc&order=price&p=3 所有具有参数dir,order和price的url都应该被忽略,但是我没有Robots.txt的经验。 任何想法?

如何停止Google索引我的Github存储库

我使用Github来存储我的一个网站的文本,但问题是谷歌索引Github中的文本。 所以相同的文本将显示在我的网站和Github上。 例如这个search最热门的是我的网站。 第二个命中是Github存储库。 我不介意人们是否看到消息来源,但我不希望Google将其编入索引(也许会对重复的内容进行处罚)。除了将存储库私有化之外,还有什么方法可以告诉Google停止对其进行索引吗? 在Github页面的情况下会发生什么? 这些是源代码在Github存储库中的网站。 他们是否有同样的重复问题? 采取这个search最高的命中导致马尔帕网站,但我没有看到在search结果中列出的来源 。 怎么样?

如何configurationrobots.txt以允许一切?

Google网站站长工具中的我的robots.txt显示以下值: User-agent: * Allow: / 这是什么意思? 我没有足够的知识,所以寻求你的帮助。 我想让所有机器人抓取我的网站,这是正确的configuration?

在robots.txt中可以使用相对的网站地图url吗?

在robots.txt中,我可以为站点地图文件编写以下相对URL吗? sitemap: /sitemap.ashx 或者,我必须使用站点地图文件的完整(绝对)url,例如: sitemap: http://subdomain.domain.com/sitemap.ashx 为什么我想知道: 我拥有一个新的博客服务www.domain.com,允许用户在accountname.domain.com上进行博客。 我使用通配符,所以所有子域(帐户)指向:“blog.domain.com”。 在blog.domain.com,我把robots.txt让search引擎find网站地图。 但是,由于通配符,所有用户帐户共享相同的robots.txt文件。这就是为什么我不能使用第二个select。 而现在我不能使用URL重写txt文件。 (我猜想,更高版本的IIS可以处理这个?)