Tag: rcurl httr

在R中search受密码保护的网站

我试图抓取密码保护的网站在R读取数据。看来,httr和RCurl包是用密码authentication(我也看过XML包)的最佳select。 我正在试图抓取的网站在下面(您需要一个免费帐户才能访问整个页面): http : //subscribers.footballguys.com/myfbg/myviewprojections.php?projector=2 这里是我的两个尝试(用我的用户名和密码replace“用户名”和我的密码): #This returns "Status: 200" without the data from the page: library(httr) GET("http://subscribers.footballguys.com/myfbg/myviewprojections.php?projector=2", authenticate("username", "password")) #This returns the non-password protected preview (ie, not the full page): library(XML) library(RCurl) readHTMLTable(getURL("http://subscribers.footballguys.com/myfbg/myviewprojections.php?projector=2", userpwd = "username:password")) 我已经看了其他相关的post(下面的链接),但不知道如何将他们的答案应用到我的案件。 如何使用R从需要cookie的SSL页面下载压缩文件 如何在R(https链接)(使用XML包中的readHTMLTable)对web页面进行webscrape? 从密码保护网站读取信息 R – RCurl从密码保护的网站刮取数据 http://www.inside-r.org/questions/how-scrape-data-password-protected-https-website-using-r-hold