如何从WebView获取网页内容?

在Android上,我有一个显示页面的WebView

如何在不请求页面的情况下获取页面源代码?

看来WebView应该有一种getPageSource()方法返回一个string,但是它不。

如果我启用JavaScript,那么在此调用中input内容的适当的JavaScript是什么?

 webview.loadUrl("javascript:(function() { " + "document.getElementsByTagName('body')[0].style.color = 'red'; " + "})()"); 

我知道这是一个迟到的答案,但我发现这个问题,因为我有同样的问题。 我想我在lexandera.com的这篇文章中find了答案。 下面的代码基本上是来自网站的剪贴。 这似乎是诀窍。

 final Context myApp = this; /* An instance of this class will be registered as a JavaScript interface */ class MyJavaScriptInterface { @JavascriptInterface @SuppressWarnings("unused") public void processHTML(String html) { // process the html as needed by the app } } final WebView browser = (WebView)findViewById(R.id.browser); /* JavaScript must be enabled if you want it to work, obviously */ browser.getSettings().setJavaScriptEnabled(true); /* Register a new JavaScript interface called HTMLOUT */ browser.addJavascriptInterface(new MyJavaScriptInterface(), "HTMLOUT"); /* WebViewClient must be set BEFORE calling loadUrl! */ browser.setWebViewClient(new WebViewClient() { @Override public void onPageFinished(WebView view, String url) { /* This call inject JavaScript into the page which just finished loading. */ browser.loadUrl("javascript:window.HTMLOUT.processHTML('<head>'+document.getElementsByTagName('html')[0].innerHTML+'</head>');"); } }); /* load a web page */ browser.loadUrl("http://lexandera.com/files/jsexamples/gethtml.html"); 

每个问题12987 ,布伦德尔的答案崩溃(至less在我的2.3虚拟机)。 相反,我用一个特殊的前缀拦截了一个对console.log的调用:

 // intercept calls to console.log web.setWebChromeClient(new WebChromeClient() { public boolean onConsoleMessage(ConsoleMessage cmsg) { // check secret prefix if (cmsg.message().startsWith("MAGIC")) { String msg = cmsg.message().substring(5); // strip off prefix /* process HTML */ return true; } return false; } }); // inject the JavaScript on page load web.setWebViewClient(new WebViewClient() { public void onPageFinished(WebView view, String address) { // have the page spill its guts, with a secret prefix view.loadUrl("javascript:console.log('MAGIC'+document.getElementsByTagName('html')[0].innerHTML);"); } }); web.loadUrl("http://www.google.com"); 

这是一个基于jluckyiv的答案,但我认为更好和更简单的更改JavaScript如下。

 browser.loadUrl("javascript:HTMLOUT.processHTML(document.documentElement.outerHTML);"); 

你有没有考虑过单独获取HTML,然后加载到一个web视图?

 String fetchContent(WebView view, String url) throws IOException { HttpClient httpClient = new DefaultHttpClient(); HttpGet get = new HttpGet(url); HttpResponse response = httpClient.execute(get); StatusLine statusLine = response.getStatusLine(); int statusCode = statusLine.getStatusCode(); HttpEntity entity = response.getEntity(); String html = EntityUtils.toString(entity); // assume html for simplicity view.loadDataWithBaseURL(url, html, "text/html", "utf-8", url); // todo: get mime, charset from entity if (statusCode != 200) { // handle fail } return html; } 

我设法使用来自@ jluckyiv的答案的代码得到这个工作,但我不得不添加@JavascriptInterface注释到MyJavaScriptInterface中的processHTML方法。

 class MyJavaScriptInterface { @SuppressWarnings("unused") @JavascriptInterface public void processHTML(String html) { // process the html as needed by the app } } 

如果targetSdkVersion> 17,则还需要使用@JavascriptInterface注释该方法,因为SDK 17中存在新的安全要求,即所有JavaScript方法都必须使用@JavascriptInterface进行注释。 否则你会看到如下错误:Uncaught TypeError:Object [object Object]没有方法'processHTML'null:1

如果您正在使用kitkat及以上版本,则可以使用chrome远程debugging工具来查找进出web视图的所有请求和响应,以及查看的页面的html源代码。

https://developer.chrome.com/devtools/docs/remote-debugging