Tag: 刮刀

XPath ::获取以下兄弟

我有以下的HTML结构:我想build立一个强大的方法来提取第二个颜色摘要元素,因为在DOM中会有很多这些标记。 <table> <tbody> <tr bgcolor="#AAAAAA"> <tr> <tr> <tr> <tr> <td>Color Digest </td> <td>AgArAQICGQMVBBwTIRQHIwg0GUMURAZTBWQJcwV0AoEDAQ </td> </tr> <tr> <td>Color Digest </td> <td>2,43,2,25,21,28,0,0,0,0,0,0,0,0,0,0,0,0,0,0,33,7,0,0,0,0,0,0,0,0,0,0,0,0,0,0,8,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,25,0,0,0,0,0,0,0,0,0,0,0,0,0,0,20,6,0,0,0,0,0,0,0,0,0,0,0,0,0,0,5,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,9,0,0,0,0,0,0,0,0,0,0,0,0,0,0,5,2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, </td> </tr> </tbody> </table> 我正试图提取具有解码值的第二个“Color Digest”td元素。 我写了下面的xpath,而不是得到第二我没有得到第二个TD元素。 //td[text() = ' Color Digest ']/following-sibling::td[2] 而当我把它改为td [2]到td [1]时,我得到了两个元素。

如何从需要cookielogin的网站在PHP中抓取网站内容?

我的问题是,它不仅仅需要一个基本的cookie,而是要求一个会话cookie和随机生成的ID。 我想这意味着我需要使用一个cookie jar的web浏览器模拟器? 我试图使用史努比,Goutte和其他一些networking浏览器模拟器,但是至今我还没有find关于如何接收cookies的教程。 我有点绝望了! 任何人都可以给我一个如何接受史努比或Gouttecookies的例子吗? 提前致谢!