Tag: scraping

如何pipe理PhantomJS实例的“池”

我正在计划一个webservice供我自己使用内部使用一个参数,一个URL,并返回表示从该URL parsing的 DOM的HTML。 通过解决我的意思是,Web服务将首先获得该网页,然后使用PhantomJS'呈现'页面,然后返回所有的DHTML,AJAX调用等执行后产生的源。 然而,基于每个请求(我现在正在做的)启动幻影的方式太慢了。 我宁愿有一个PhantomJS实例池,总是有一个服务于我的web服务的最新调用。 以前有没有做过这方面的工作? 我宁愿将这个web服务基于其他人的工作,而不是从头开始为自己写一个池pipe理器/ http代理服务器。 更多的上下文 :我已经列出了目前为止我见过的两个类似的项目,以及为什么我避免了每个项目,结果导致这个关于pipe理一个PhantomJS实例池的问题。 jsdom – 从我看到它有很好的function来执行页面上的脚本,但它不会尝试复制浏览器的行为,所以如果我使用它作为一个通用的“DOMparsing器”,最终会成为很多额外的编码来处理各种边界情况,事件调用等。我看到的第一个例子是手动调用我使用节点设置的testing应用程序的body标签的onload()函数。 这似乎是一个深刻的兔子洞的开始。 Selenium – 它只有很多更多的移动部件,因此设置一个池来pipe理长期浏览器实例将比使用PhantomJS更复杂。 我不需要它的任何macros录制/脚本的好处。 我只是想要一个web服务,就像获取网页和parsing它的DOM一样,就好像我正在用浏览器浏览这个URL(或者如果我可以让它忽略图像等甚至更快)。

在R中search受密码保护的网站

我试图抓取密码保护的网站在R读取数据。看来,httr和RCurl包是用密码authentication(我也看过XML包)的最佳select。 我正在试图抓取的网站在下面(您需要一个免费帐户才能访问整个页面): http : //subscribers.footballguys.com/myfbg/myviewprojections.php?projector=2 这里是我的两个尝试(用我的用户名和密码replace“用户名”和我的密码): #This returns "Status: 200" without the data from the page: library(httr) GET("http://subscribers.footballguys.com/myfbg/myviewprojections.php?projector=2", authenticate("username", "password")) #This returns the non-password protected preview (ie, not the full page): library(XML) library(RCurl) readHTMLTable(getURL("http://subscribers.footballguys.com/myfbg/myviewprojections.php?projector=2", userpwd = "username:password")) 我已经看了其他相关的post(下面的链接),但不知道如何将他们的答案应用到我的案件。 如何使用R从需要cookie的SSL页面下载压缩文件 如何在R(https链接)(使用XML包中的readHTMLTable)对web页面进行webscrape? 从密码保护网站读取信息 R – RCurl从密码保护的网站刮取数据 http://www.inside-r.org/questions/how-scrape-data-password-protected-https-website-using-r-hold

如何在Python脚本中运行Scrapy

我是Scrapy的新手,我正在寻找一种从Python脚本运行它的方法。 我发现有两个来源解释这一点: http://tryolabs.com/Blog/2011/09/27/calling-scrapy-python-script/ http://snipplr.com/view/67006/using-scrapy-from-a-script/ 我不知道我应该把我的蜘蛛代码,以及如何从主函数调用它。 请帮忙。 这是示例代码: # This snippet can be used to run scrapy spiders independent of scrapyd or the scrapy command line tool and use it from a script. # # The multiprocessing library is used in order to work around a bug in Twisted, in which you cannot restart an already […]

CasperJS / PhantomJS不加载https页面

我知道有一些网页PhantomJS / CasperJS无法打开,我想知道这是否是其中之一: https ://maizepages.umich.edu。 CasperJS给出了一个错误:PhantomJS无法打开页面状态=失败。 我试着忽略ssl错误和改变我的用户代理,但我不知道如何确定使用哪些。 我现在正在做的是casper.start(url, function () { … })的基本casper设置,其中url=https://maizepages.umich.edu ;