Tag: scraping jsoup

如何“扫描”一个网站(或网页)的信息,并将其带入我的程序?

那么,我很想弄清楚如何从网页中提取信息,并将其带入我的程序(使用Java)。 例如,如果我知道我想从中获取信息的确切页面,为了简单起见,我将如何从该页面获取所需的相应信息? 像标题,价格,描述? 这个过程甚至会被称为什么? 我不知道甚至开始研究这个。 编辑:好吧,我正在运行JSoup(由BalusC发布的)的testing,但我不断收到此错误: Exception in thread "main" java.lang.NoSuchMethodError: java.util.LinkedList.peekFirst()Ljava/lang/Object; at org.jsoup.parser.TokenQueue.consumeWord(TokenQueue.java:209) at org.jsoup.parser.Parser.parseStartTag(Parser.java:117) at org.jsoup.parser.Parser.parse(Parser.java:76) at org.jsoup.parser.Parser.parse(Parser.java:51) at org.jsoup.Jsoup.parse(Jsoup.java:28) at org.jsoup.Jsoup.parse(Jsoup.java:56) at test.main(test.java:12) 我有Apache Commons

如何使用Jsoup通过HTTPS进行连接?

它通过HTTP正常工作,但是当我尝试使用HTTPS源时,会引发以下exception: 10-12 13:22:11.169: WARN/System.err(332): javax.net.ssl.SSLHandshakeException: java.security.cert.CertPathValidatorException: Trust anchor for certification path not found. 10-12 13:22:11.179: WARN/System.err(332): at org.apache.harmony.xnet.provider.jsse.OpenSSLSocketImpl.startHandshake(OpenSSLSocketImpl.java:477) 10-12 13:22:11.179: WARN/System.err(332): at org.apache.harmony.xnet.provider.jsse.OpenSSLSocketImpl.startHandshake(OpenSSLSocketImpl.java:328) 10-12 13:22:11.179: WARN/System.err(332): at org.apache.harmony.luni.internal.net.www.protocol.http.HttpConnection.setupSecureSocket(HttpConnection.java:185) 10-12 13:22:11.179: WARN/System.err(332): at org.apache.harmony.luni.internal.net.www.protocol.https.HttpsURLConnectionImpl$HttpsEngine.makeSslConnection(HttpsURLConnectionImpl.java:433) 10-12 13:22:11.189: WARN/System.err(332): at org.apache.harmony.luni.internal.net.www.protocol.https.HttpsURLConnectionImpl$HttpsEngine.makeConnection(HttpsURLConnectionImpl.java:378) 10-12 13:22:11.189: WARN/System.err(332): at org.apache.harmony.luni.internal.net.www.protocol.http.HttpURLConnectionImpl.connect(HttpURLConnectionImpl.java:205) 10-12 13:22:11.189: WARN/System.err(332): at org.apache.harmony.luni.internal.net.www.protocol.https.HttpsURLConnectionImpl.connect(HttpsURLConnectionImpl.java:152) 10-12 13:22:11.189: WARN/System.err(332): at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:377) 10-12 13:22:11.189: […]

Android – parsingJS JSOUP生成的URL

即时通讯试图parsing由Bootstrap的Bootpage.js,看起来像https://example.com/#page-2生成的url,但JSOUP不能parsing它,并显示主要的url。 如何从Bootpage中获得正常的链接或者如何使JSOUPparsing它。 parsing代码: Jsoup.connect("https://example.com/#page-2").followRedirects(true).get();