在Android中parsingHTML

我想从网页parsingHTML中的Android,并且由于网页不正确形成,我得到SAXException

有没有办法在Android中parsingHTML?

我刚刚遇到这个问题。 我尝试了一些东西,但决定使用JSoup 。 这个jar大概是132k,这有点大,但是如果你下载了源代码并且拿出了一些你不会使用的方法,那么它就不是那么大。
=>好的一点是,它将处理格式不正确的HTML

这是他们网站的一个很好的例子。

 File input = new File("/tmp/input.html"); Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/"); //http://jsoup.org/cookbook/input/load-document-from-url //Document doc = Jsoup.connect("http://example.com/").get(); Element content = doc.getElementById("content"); Elements links = content.getElementsByTag("a"); for (Element link : links) { String linkHref = link.attr("href"); String linkText = link.text(); } 

你有没有尝试过使用Html.fromHtml(源) ?

我认为这个类在源代码质量方面非常自由(它在内部使用了TagSoup ,它是用现实生活中的错误的HTML来devise的)。 虽然它不支持所有的HTML标签,但它确实附带了一个处理程序,您可以对其执行的处理程序进行处理,以对不理解的标记作出反应

 String tmpHtml = "<html>a whole bunch of html stuff</html>"; String htmlTextStr = Html.fromHtml(tmpHtml).toString(); 

也许你可以使用WebView,但正如你可以在文档中看到的WebView不支持JavaScript和其他东西,如小部件默认情况下。

http://developer.android.com/reference/android/webkit/WebView.html

我认为你可以启用JavaScript,如果你需要它。