Wget将输出文件和标题输出到STDOUT

我正在尝试通过wget -S -O - http://google.com将文档正文及其标题输出到stdout

但它只显示html文档。

谢谢

UPD:

工作了这个wget --save-headers --output-document - http://google.com

wget --version显示GNU Wget 1.11.4红帽修改

尝试以下,没有额外的标题

 wget -qO- www.google.com 

注意尾随- 。 这是-O的常规命令参数的一部分,以便输出到文件,但是由于我们不使用>来指向文件,所以它会出现在shell中。 您可以使用-qO--qO -

wget -S -O - http://google.com可以按照我的预期工作, 有一点要注意:头文件被认为是debugging信息,因此它们被发送到标准错误而不是标准输出。 如果您将标准输出redirect到文件或其他进程,则只能获取文档内容。

您可以尝试将标准错误redirect到标准输出,作为可能的解决scheme。 例如,在bash

 $ wget -q -S -O - 2>&1 | grep ... 

要么

 $ wget -q -S -O - 1>wget.txt 2>&1 

-q选项禁止进度条和wget输出的一些烦人的讨厌的部分。

它在这里工作:

  $ wget -S -O - http://google.com HTTP request sent, awaiting response... HTTP/1.1 301 Moved Permanently Location: http://www.google.com/ Content-Type: text/html; charset=UTF-8 Date: Sat, 25 Aug 2012 10:15:38 GMT Expires: Mon, 24 Sep 2012 10:15:38 GMT Cache-Control: public, max-age=2592000 Server: gws Content-Length: 219 X-XSS-Protection: 1; mode=block X-Frame-Options: SAMEORIGIN Location: http://www.google.com/ [following] --2012-08-25 12:20:29-- http://www.google.com/ Resolving www.google.com (www.google.com)... 173.194.69.99, 173.194.69.104, 173.194.69.106, ... ...skipped a few more redirections ... [<=> ] 0 --.-K/s <!doctype html><html itemscope="itemscope" itemtype="http://schema.org/WebPage"><head><meta itemprop="image" content="http://img.dovov.comgoogle_favicon_128.png"><ti ... skipped ... 

也许你需要更新你的wget( ~$ wget --version GNU Wget 1.14 built on linux-gnu.

这不会工作:

 wget -q -S -O - google.com 1>wget.txt 2>&1 

由于redirect从右到左计算,因此将html发送到wget.txt,并将头发送到STDOUT:

 wget -q -S -O - google.com 2>&1 1>wget.txt