如何使用wget从网站下载所有文件(但不是HTML)?

如何使用wget并从网站获取所有文件?

我需要除HTML,PHP,ASP等网页文件外的所有文件

要筛选特定的文件扩展名:

 wget -A pdf,jpg -m -p -E -k -K -np http://site/path/ 

或者,如果您更喜欢长选项名称:

 wget --accept pdf,jpg --mirror --page-requisites --adjust-extension --convert-links --backup-converted --no-parent http://site/path/ 

这将反映网站,但没有jpgpdf扩展名的文件将被自动删除。

 wget -m -p -E -k -K -np http://site/path/ 

手册页会告诉你这些选项做什么。

wget只会跟踪链接,如果没有链接到索引页面的文件,那么wget不会知道它的存在,因此不会下载它。 即。 它有助于所有文件链接到网页或目录索引。

这为我下载了整个网站:

 wget --no-clobber --convert-links --random-wait -r -p -E -e robots=off -U mozilla http://site/path/ 

我试图下载从Omeka的主题页面链接的zip文件 – 非常类似的任务。 这对我工作:

 wget -A zip -r -l 1 -nd http://omeka.org/add-ons/themes/ 
  • -A :只接受zip文件
  • -r :recursion
  • -l 1 :深一级(即只有从这个页面直接链接的文件)
  • -nd :不要创build一个目录结构,只需将所有的文件下载到这个目录。

所有使用-k-K-E等选项的答案可能都没有真正理解这个问题,比如重写HTML页面来创build本地结构,重命名.php文件等等。 不相关。

要从字面上获取 .html 之外的所有文件:

 wget -R html,htm,php,asp,jsp,js,py,css -r -l 1 -nd http://yoursite.com 

你可以尝试:

 wget --user-agent=Mozilla --content-disposition --mirror --convert-links -E -K -p http://example.com/ 

你也可以添加:

 -A pdf,ps,djvu,tex,doc,docx,xls,xlsx,gz,ppt,mp4,avi,zip,rar 

接受特定的扩展名,或只拒绝特定的扩展名:

 -R html,htm,asp,php 

或排除特定的区域:

 -X "search*,forum*" 

如果机器人(例如search引擎)忽略这些文件,则还必须添加: -e robots=off

尝试这个。 它总是为我工作

 wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL 

在Windows系统上,以获得wget你可能

  1. 下载Cygwin
  2. 下载GnuWin32
 wget -m -A * -pk -e robots=off www.mysite.com/ 

这将下载所有types的文件在本地,并指向他们从HTML文件,它会忽略机器人文件