Tag: 屏幕抓取

我怎样才能把一个HTML表格CSV?

问题 我在工作中使用了一个工具,可以让我查询信息并获取HTML表格。 我没有任何types的后端访问。 如果我可以把它放到一个电子表格中进行sorting,平均等,那么很多这种信息会更加有用。 如何将这些数据屏幕抓取到CSV文件? 我的第一个想法 因为我知道jQuery,所以我想我可以用它去掉屏幕上的表格格式,插入逗号和换行符,然后把整个文件复制到记事本中并保存为CSV。 任何更好的想法? 解决scheme 是的,伙计们,就像复制和粘贴一样简单。 我不觉得傻。 具体来说,当我粘贴到电子表格中时,我必须select“select性粘贴”并select格式“文本”。 否则,它会尝试将所有内容粘贴到一个单元格中,即使我突出显示了整个电子表格。

屏幕抓取:绕过“HTTP错误403:robots.txt不允许的请求”

有没有办法解决以下问题? httperror_seek_wrapper: HTTP Error 403: request disallowed by robots.txt 是唯一的方法来联系网站所有者(barnesandnoble.com)..我build立一个网站,将带来更多的销售,不知道为什么他们会拒绝访问在一定的深度。 我在Python2.6上使用mechanize和BeautifulSoup。 希望有一个解决办法

search引擎如何find相关内容?

Google在parsingnetworking时如何find相关内容? 比方说,例如,Google使用PHP原生DOM库来parsing内容。 他们有什么方法可以在网页上find最相关的内容? 我的想法是,它会search所有段落,按每个段落的长度sorting,然后从可能的searchstring和查询参数中计算出每个段落的相关百分比。 假设我们有这个url: http://domain.tld/posts/stackoverflow-dominates-the-world-wide-web.html 现在从这个URL我会弄清楚HTML文件名是高度相关的,然后我会看看这个string与页面中的所有段落有多接近! 当你分享一个页面时,一个很好的例子就是Facebook共享。 Facebook快速将链接粘贴回来,并将图片,内容等带回 我以为某种计算方法是最好的,根据周围的元素和元数据来计算相关性的百分比。 有没有关于内容分析最佳实践的书籍/信息,包括如何从网站获取最佳内容,可能讨论的任何algorithm或任何深入的答复? 我想到的一些想法是: 查找所有段落,并以纯文本的长度sorting 以某种方式finddiv容器的宽度和高度,并按(W + H) – @Benoitsorting 检查段落内的元关键字,标题,描述和检查相关性 find所有的图片标签,并按照最大的顺序排列,并且远离主要段落的节点的长度 检查对象数据,如video,并从最大段落/内容div中统计节点 找出与先前分析过的页面的相似之处 我需要这些信息的原因是: 我正在build立一个网站pipe理员给我们发送链接,然后我们列出他们的网页,但我希望网站pipe理员提交一个链接,然后我去抓取该页面find以下信息。 图像(如果适用) 来自最佳文本片段的<255段 关键词将用于我们的search引擎,(堆栈溢出风格) 元数据关键字,描述,所有图像,更改日志(用于审核和pipe理目的) 希望大家可以理解,这不是一个search引擎,但search引擎处理内容发现的方式与我所需要的相同。 我不是要求商业秘密,我问你个人的做法是什么。

用Node.js实时刮取网页

什么是一个好的是用Node.js刮取网站内容。 我想创build一个非常非常快速的东西,可以执行kayak.com样式的search ,其中一个查询分派到几个不同的站点,结果被删除 ,并在客户端可用时返回给客户端。 我们假设这个脚本应该只提供JSON格式的结果,我们可以直接在浏览器或其他Web应用程序中处理它们。 几个起点: 使用node.js和jquery来抓取网站 任何人有任何想法?

像kayak.com网站如何聚合内容?

问候,我一直在想着一个新项目的想法,并想知道如果有人有任何想法如何像Kayak.com服务能够如此迅速和准确地聚集来自这么多来源的数据。 更具体地说,您认为Kayak.com是否与API交互,或者他们是否抓取/刮取航空公司和酒店网站以满足用户请求? 我知道这样的事情没有一个正确的答案,但我很想知道别人认为什么是一个好方法去做这件事情。 如果有帮助,假装你明天创buildkayak.com …你的数据从哪里来?

从Python执行Javascript

我有我使用xpath爬行的HTML网页。 某个节点的etree.tostring给了我这个string: <script> <!– function escramble_758(){ var a,b,c a='+1 ' b='84-' a+='425-' b+='7450' c='9' document.write(a+c+b) } escramble_758() //–> </script> 我只需要escramble_758()的输出。 我可以写一个正则expression式来弄清楚整个事情,但是我希望我的代码保持整洁。 什么是最好的select? 我通过下面的库压缩,但我没有看到一个确切的解决scheme。 他们中的大多数都在试图模拟浏览器,使得事情变得缓慢。 http://code.google.com/p/python-spidermonkey/ (清楚地说, it's not yet possible to call a function defined in Javascript ) http://code.google.com/p/webscraping/ (没有看到任何的Javascript,我可能是错的) http://pypi.python.org/pypi/selenium (仿真浏览器) 编辑: 一个例子将是伟大的..(准系统会做)

我如何防止网站刮取?

我有一个相当大的音乐网站,一个大型的艺术家数据库。 我一直在注意到其他音乐网站刮我们的网站的数据(我input虚拟艺术家的名字,然后做谷歌search他们)。 我怎样才能防止屏幕抓取? 这甚至有可能吗?

通过url来做同样的事情

我正在努力刮几个网站。 这是我的代码: for (var i = 0; i < urls.length; i++) { url = urls[i]; console.log("Start scraping: " + url); page.open(url, function () { waitFor(function() { return page.evaluate(function() { return document.getElementById("progressWrapper").childNodes.length == 1; }); }, function() { var price = page.evaluate(function() { // do something return price; }); console.log(price); result = url + " ; […]

在线程中执行Webbrowser控件的屏幕视图

我正在使用中显示的技术 WebBrowser控件在一个新的线程 尝试获取网页的屏幕截图我已经能够获得下面的代码,当WebBrowser控件放置在WinForm上成功工作。 但是,在线程中运行时,它会提供桌面的任意图像,从而失败。 Thread browserThread = new Thread(() => { WebBrowser br = new WebBrowser(); br.DocumentCompleted += webBrowser1_DocumentCompleted; br.ProgressChanged += webBrowser1_ProgressChanged; br.ScriptErrorsSuppressed = true; br.Navigate(url); Application.Run(); }); browserThread.SetApartmentState(ApartmentState.STA); browserThread.Start(); private Image TakeSnapShot(WebBrowser browser) { int width; int height; width = browser.ClientRectangle.Width; height = browser.ClientRectangle.Height; Bitmap image = new Bitmap(width, height); using (Graphics graphics = […]

简单的屏幕抓取使用jQuery

我一直在玩使用jQuery简单的屏幕刮板的想法,我想知道如果以下是可能的。 我有一个简单的HTML页面,并且正在尝试(如果可能的话)从其他页面获取所有列表项的内容,如下所示: 主页: <!– jQuery –> <script type='text/javascript'> $(document).ready(function(){ $.getJSON("[URL to other page]", function(data){ //Iterate through the <li> inside of the URL's data $.each(data.items, function(item){ $("<li/>").value().appendTo("#data"); }); }); }); </script> <!– HTML –> <html> <body> <div id='data'></div> </body> </html> 其他页面: //Html <body> <p><b>Items to Scrape</b></p> <ul> <li>I want to scrape what is here</li> <li>and what […]