Tag: 屏幕刮擦

网上刮刮礼仪

我正在考虑编写一个简单的networking抓取应用程序来从网站提取信息,似乎并没有明确禁止这一点。 我已经检查了其他的select(例如RSS,networking服务)来获取这些信息,但在这个阶段没有可用的。 尽pipe如此,我还自己开发/维护了一些网站,所以我意识到,如果networking抓取是天真地/贪婪地完成,可能会减慢其他用户的使用,并且通常会变成麻烦。 那么,礼仪涉及到什么方面: 每秒/分钟/小时的请求数。 HTTP用户代理内容。 HTTP Referer内容。 HTTPcaching设置。 较大文件/资源​​的缓冲区大小。 合法性和许可问题。 使用好的工具或devise方法。 Robots.txt,这是相关的网页抓取或只是爬虫/蜘蛛? 压缩比如GZip中的请求。 更新 在Meta上find了这个相关的问题: ScreenSapping StackOverflow的礼节 。 杰夫·阿特伍德的答案有一些有用的build议。 其他相关的StackOverflow问题: HTML抓取的选项