解碼urllib.request裏響應

當我打開這個網址我得到這樣的響應：解碼urllib.request裏響應

r = Request(r'http://airdates.tv/') 
h = urlopen(r).readline() 
print(h)

響應：

b'\x1f\x8b\x08\x00\x00\x00\x00\x00\x00\x00\xed\xbdkv\xdbH\x96.\xfa\xbbj\x14Q\xaeuJ\xce\xee4E\x82\xa4(9m\xe7\xd2\xd3VZ\xaf2e\xab2k\xf5\xc2\n'

什麼編碼這是什麼？有沒有基於標準庫來解碼它的方法？
預先感謝您對此事的任何見解！

PS：它似乎是gzip。

來源

2016-10-23 jony

它是gzip壓縮的HTML，正如你懷疑的那樣。

而不是使用urllib使用requests這將解壓縮與您的迴應：

import requests 

r = requests.get('http://airdates.tv/') 
print(r.text)

你可以用pip install requests安裝它，永不回頭。

如果你真的必須限制自己的標準庫，然後用gzip模塊解壓：

import gzip 
import urllib2 
from cStringIO import StringIO 

f = urllib2.urlopen('http://airdates.tv/') 

# how to determine the content encoding 
content_encoding = f.headers.get('Content-Encoding') 
#print(content_encoding) 

# how to decompress gzip data with Python 3 
if content_encoding == 'gzip': 
    response = gzip.decompress(f.read()) 

# decompress with Python 2 
if content_encoding == 'gzip': 
    gz = gzip.GzipFile(fileobj=StringIO(f.read()) 
    response = gz.read()

來源

2016-10-23 08:54:12 mhawke

我看到，請求不處理它不費吹灰之力。我仍然希望用一個標準庫來完成它。我認爲這個答案可能會導致我這樣的解決方案：http://stackoverflow.com/questions/6123223/howto-uncompress-gzipped-data-in-a-byte-array – jony

瞭解它：'zlib.decompress（gz_data， 16 + zlib.MAX_WBITS）' – jony

哦，我發佈了我正在使用的解決方案，但您的答案更完整！從頁面檢索內容編碼非常有用！謝謝。 – jony

mhawke的解決方案（使用requests代替urllib）完美的作品，並在大多數情況下應該是首選。這就是說，我正在尋找一個解決方案，不需要安裝第三方庫（因此我選擇urllib而不是requests）。

我發現使用標準庫的解決方案：

import zlib 
from urllib.request import Request, urlopen 

r = Request(r'http://airdates.tv/') 
h = urlopen(r).read() 
decomp_gzip = zlib.decompress(h, 16+zlib.MAX_WBITS) 
print(decomp_gzip)

其產生以下響應：

b'<!DOCTYPE html>\n (continues...)'

來源

2016-10-23 09:22:55 jony

解碼urllib.request裏響應

回答

相關問題