在Python中，如何解码GZIP编码？

我在我的python脚本中下载了一个网页。在大多数情况下，这工作正常。

然而，这个有一个响应头：GZIP编码，当我试图打印这个网页的源代码，它有我的腻子中的所有符号。

如何解码这个正则文本？

我使用zlib解压缩来自web的gzip内容。

import zlib ... # f=urllib2.urlopen(url) decompressed_data=zlib.decompress(f.read(), 16+zlib.MAX_WBITS)

使用内置的gzip模块解压缩字节stream。

如果您有任何问题，请显示您使用的确切的最小代码，确切的错误消息和回溯，以及print repr(your_byte_stream[:100])

更多信息

1.有关gzip / zlib / deflate混淆的解释，请阅读本维基百科文章的“其他用途”部分。

2.如果你有一个string而不是一个文件，使用zlib模块比gzip模块更容易。不幸的是， Python文档不完整/错误：

“”“”zlib.decompress（string [，wbits [，bufsize]]）… wbits的绝对值是压缩数据时使用的历史缓冲区大小（“窗口大小”）的基数的两倍对数。对于最新版本的zlib库，绝对值应该介于8到15之间，较大的值会导致更好的压缩，但会增加内存使用量。默认值为15.当wbits为负时，标准gzip头被抑制;这是zlib库的一个未公开的function，用于兼容unzip的压缩文件格式。“”“

首先，8 <= log2_window_size <= 15，具有上面给出的含义。那么应该是什么应该是一个单独的参数顶部：

arg == log2_window_size表示假定string采用zlib格式（RFC 1950; HTTP 1.1 RFC 2616将deflate称为“deflate”）。

arg == -log2_window_size表示假定string是放缩格式（RFC 1951;实际上没有仔细阅读HTTP 1.1 RFC的人）

arg == 16 + log_2_window_size表示假定string采用gzip格式（RFC 1952）。所以你可以用31。

以上信息logging在zlib C库手册中 … Ctrl-FsearchwindowBits 。

我使用类似的东西：

 f = urllib2.urlopen(request) data = f.read() try: from cStringIO import StringIO from gzip import GzipFile data2 = GzipFile('', 'r', 0, StringIO(data)).read() data = data2 except: #print "decompress error %s" % err pass return data

为python3

试试这个

  import gzip fetch = opener.open(request) # basically get a response object data = gzip.decompress(fetch.read()) data = str(data,'utf-8')

类似于沙图对python3的回答，但排列有点不同：

 import gzip s = Request("https://someplace.com", None, headers) r = urlopen(s, None, 180).read() try: r = gzip.decompress(r) except OSError: pass result = json_load(r.decode())

这个方法允许在尝试中包装gzip.decompress（），除了捕获和传递OSError，这可能会导致混合的压缩和未压缩的数据。一些小string如果被编码，实际上会变得更大，所以原来的数据被发送。

您可以使用urllib3轻松解码gzip。

 urllib3.response.decode_gzip(response.data)

在Python中，如何解码GZIP编码？

如何提取文本中使用的关键字？

解码＆amp; 回到＆在JavaScript中

使用Python从HTML文件中提取文本

jQuery通过文本查找元素

用CSS截断长string：可行吗？

如何在Python中检查文本是否为空（空格，制表符，换行符）？

在iOS中更改button的文本并禁用button

如何分割一个文件，并保持每一块的第一行？

在字符集之间转换文本文件的最佳方法？

什么是最优雅的方式来阅读一个文本文件与C + +？