你如何刮AJAX页面？

标题说明了一切。请指教如何刮AJAX页面。

概述：

所有屏幕抓取首先需要手动检查您要从中提取资源的页面。在处理AJAX时，通常只需要简单地分析一下HTML。

在处理AJAX时，这只是表示所需的值不在您请求的初始HTML文档中，而是会执行JavaScript来请求服务器获取所需的额外信息。

因此，您通常可以简单地分析JavaScript并查看JavaScript所做的请求，并从头开始调用此URL。

例：

以此为例，假设您要从中刮取的页面具有以下脚本：

<script type="text/javascript"> function ajaxFunction() { var xmlHttp; try { // Firefox, Opera 8.0+, Safari xmlHttp=new XMLHttpRequest(); } catch (e) { // Internet Explorer try { xmlHttp=new ActiveXObject("Msxml2.XMLHTTP"); } catch (e) { try { xmlHttp=new ActiveXObject("Microsoft.XMLHTTP"); } catch (e) { alert("Your browser does not support AJAX!"); return false; } } } xmlHttp.onreadystatechange=function() { if(xmlHttp.readyState==4) { document.myForm.time.value=xmlHttp.responseText; } } xmlHttp.open("GET","time.asp",true); xmlHttp.send(null); } </script>

然后，您只需要对同一台服务器的time.asp执行HTTP请求即可。来自w3schools的例子。

使用C ++进行高级抓取：

对于复杂的用法，如果你使用C ++，你也可以考虑使用Firefox的JavaScript引擎SpiderMonkey来执行页面上的JavaScript。

先进的Java抓取：

对于复杂的用法，如果你使用Java，你也可以考虑使用Java Rhino的firefox javascript引擎

用.NET进行高级刮取：

对于复杂的用法，如果您使用.Net，您也可以考虑使用Microsoft.vsa程序集。最近取代了ICodeCompiler / CodeDOM。

如果可以的话，请尝试检查DOM树。 Selenium做这个testing页面的一部分。它还具有点击button和跟随链接的function，这可能是有用的。

在我看来，最简单的解决scheme是使用Casperjs ，这是一个基于WebKit无头浏览器幻灯片的框架。

整个页面被加载，并且很容易刮掉任何与Ajax有关的数据。你可以查看这个基本的教程来学习使用PhantomJS和CasperJS进行自动化和刮擦

你也可以看看这个例子的代码，关于如何刮谷歌build议的关键字：

 /*global casper:true*/ var casper = require('casper').create(); var suggestions = []; var word = casper.cli.get(0); if (!word) { casper.echo('please provide a word').exit(1); } casper.start('http://www.google.com/', function() { this.sendKeys('input[name=q]', word); }); casper.waitFor(function() { return this.fetchText('.gsq_a table span').indexOf(word) === 0 }, function() { suggestions = this.evaluate(function() { var nodes = document.querySelectorAll('.gsq_a table span'); return [].map.call(nodes, function(node){ return node.textContent; }); }); }); casper.run(function() { this.echo(suggestions.join('\n')).exit(); });

使用Ajax或一般页面使用Javascript刮取网页的最佳方法是使用浏览器本身或无头浏览器（不带GUI的浏览器）。目前phantomjs是一个很好的推广使用WebKit的无头浏览器。我成功的一个替代方法是HtmlUnit （在Java或.NET中，通过IKVM ，这是一个模拟的浏览器）。另一个已知的替代方法是使用像Selenium这样的Web自动化工具。

我写了很多关于这个主题的文章，例如网页抓取Ajax和Javascript网站以及Twitter的自动浏览器OAuth身份validation 。在第一篇文章的最后，自2011年以来，我一直在编写大量额外的资源。

取决于ajax页面。屏幕抓取的第一部分是确定页面是如何工作的。是否有某种variables可以迭代来请求页面中的所有数据？就个人而言，我已经使用Web Scraper Plus进行了很多与屏幕抓取相关的任务，因为它很便宜，不难入门，非程序员可以相对快速地工作。

方面注意：使用条款可能是你可能要在这之前检查的地方。根据遍历所有网站的站点可能会引起一些标志。

作为一个低成本的解决scheme，您也可以尝试SWExplorerAutomation （SWEA）。该程序为使用HTML，DHTML或AJAX开发的任何Web应用程序创build自动化API。

我喜欢PhearJS ，但这可能部分是因为我build立了它。

也就是说，这是一个在后台运行的服务，它表示HTTP（S）并将页面呈现为JSON，包括您可能需要的任何元数据。

我认为，当源代码易于阅读时，Brian R. Bondy的答案很有用。我更喜欢使用Wireshark或HttpAnalyzer等工具轻松捕获数据包，并从“主机”字段和“GET”字段获取URL。

例如，我捕获一个数据包，如下所示：

 GET /hqzx/quote.aspx?type=3&market=1&sorttype=3&updown=up&page=1&count=8&time=164330 HTTP/1.1 Accept: */* Referer: http://quote.hexun.com/stock/default.aspx Accept-Language: zh-cn Accept-Encoding: gzip, deflate User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1) Host: quote.tool.hexun.com Connection: Keep-Alive

那么URL是：

 http://quote.tool.hexun.com/hqzx/quote.aspx?type=3&market=1&sorttype=3&updown=up&page=1&count=8&time=164330

另一个最好的工具，让我们在活DOM上写剪贴画是麻省理工学院的解决scheme。 http://simile.mit.edu/wiki/Solvent 。

Envjs在http://www.envjs.com/doc/guides上也很有前途。;

如果你的意图是高规模的，你可能需要引入延迟和模仿人类的行为，以避免被服务被禁止的禁止。

你如何刮AJAX页面？

Ajax方法调用

CORS是跨域AJAX请求的安全方式吗？

Ajax更新/渲染不适用于已呈现属性的组件

在有条件渲染的组件中提交表单不会被处理

由于错误的MIMEtypes，Chrome拒绝执行AJAX脚本

与jQuery的jsonp

Facebook如何在浏览器地址栏中重写页面的源URL？

主线程上的同步XMLHttpRequest已被弃用

在什么情况下，AJAX长/短轮询比HTML5 WebSockets更受欢迎？

通过Javascript / jQuery的Ajax HEAD请求