如何将整个网站归档以供离线查看?

我们实际上已经多次为客户烧了我们的asp.net网站的静态/归档副本。 直到现在我们已经使用了WebZip ,但是我们遇到了无数的崩溃问题,下载的页面没有正确的重新链接。

我们基本上需要一个应用程序来抓取和下载我们的asp.net网站(页面,图像,文件,CSS等)的一切静态副本,然后处理下载的页面,以便他们可以在本地浏览没有互联网连接(摆脱链接绝对的url等)。 越白痴certificate越好。 这似乎是一个相当普遍和(相对)简单的过程,但我已经尝试了一些其他的应用程序,并且一直没有被印象深刻

有没有人有他们会推荐的存档软件? 有没有人有一个非常简单的过程,他们会分享?

在Windows中,你可以看看HTTrack 。 这是非常可configuration的,让您设置下载的速度。 但是你可以把它指向一个网站,也可以在没有configuration的情况下运行它。

根据我的经验,这是一个非常好的工具,运行良好。 我喜欢HTTrack的一些事情是:

  • 开源许可证
  • 恢复停止下载
  • 可以更新现有的档案
  • 您可以将其configuration为下载时不积极,因此不会浪费您的带宽和站点的带宽。

你可以使用wget :

 wget -m -k -K -E http://url/of/web/site 

我在OSX上使用蓝蟹 ,在Windows上使用WebCopier 。

由hartator的Wayback Machine Downloader简单而快速。

通过Ruby安装,然后从Internet Archive运行所需的域和可选的时间戳。

 sudo gem install wayback_machine_downloader mkdir example cd example wayback_machine_downloader http://example.com --timestamp 19700101000000 

wget -r -k

…并调查其余的选项。 我希望你已经遵循了这些准则: http : //www.w3.org/Protocols/rfc2616/rfc2616-sec9.html所以你所有的资源都安全的GET请求。

我只是使用: wget -m <url>

对于OS X用户,我发现在这里find的sitesucker应用程序运行良好,没有configuration任何东西,但它有多深的链接。

如果您的客户正在归档符合性问题,则需要确保内容可以通过validation。 所列出的选项对于简单的查看来说是很好的,但是它们在法律上是不允许的。 在这种情况下,你正在寻找时间戳和数字签名。 如果你自己做,就会复杂得多。 我会build议一个服务,如PageFreezer 。

我已经使用HTTrack好几年了。 它处理所有的页面间链接,等等。 我唯一的抱怨是,我还没有find一个很好的方法来把它限制在一个子网站上。 例如,如果有一个我想归档的网站www.foo.com/steve,它可能会链接到www.foo.com/rowe并归档。 否则,这是伟大的。 高度可configuration和可靠。