Tag: scrape

从PDF文件读取数据到R

这甚至可能!!! 我有一堆遗留报告,我需要导入到数据库。 但是,他们都是PDF格式。 有没有可以阅读pdf的R包? 或者我应该把它留给一个命令行工具? 这些报告是用excel表示的,然后是pdf格式的,所以它们有规律的结构,但是有很多空白的“单元格”。

用JAVAparsing网站HTML

我想parsing一个简单的网站,并从该网站上刮取信息。 我曾经用DocumentBuilderFactoryparsingXML文件,我试图为HTML文件做同样的事情,但它总是进入一个无限循环。 URL url = new URL("http://www.deneme.com"); URLConnection uc = url.openConnection(); InputStreamReader input = new InputStreamReader(uc.getInputStream()); BufferedReader in = new BufferedReader(input); String inputLine; FileWriter outFile = new FileWriter("orhancan"); PrintWriter out = new PrintWriter(outFile); while ((inputLine = in.readLine()) != null) { out.println(inputLine); } in.close(); out.close(); File fXmlFile = new File("orhancan"); DocumentBuilderFactory dbFactory = DocumentBuilderFactory.newInstance(); DocumentBuilder dBuilder […]