使用python的urllib2時缺少'content-length'標題urlopen

當試圖使用python中的urllib2檢查某些網頁的'content-length'標題時，標題丟失。例如，來自google.com的回覆缺少此標題。任何想法爲什麼？使用python的urllib2時缺少'content-length'標題urlopen

實施例：

r = urllib2.urlopen('http://www.google.com') 
i = r.info() 
print i.keys()

給出：

['x-xss-protection', 'set-cookie', 'expires', 'server', 'connection', 'cache-control', 'date', 'p3p', 'content-type', 'x-frame-options']

來源

2012-06-16 user1369195

你可以看到here，一個HTTP響應可以包含Content-Length或Transfer-Encoding: chunked。

但是，當在標頭中使用Transfer-Encoding: chunked時，在標題後面，您將得到一個十六進制字符串，如果轉換爲十進制，則會給出下一個塊的長度。在最後一個塊之後，你會得到一個0這個值，這意味着你已經達到了文件的末尾。

您可以使用正則表達式來得到這個十六進制值（不是雖然必須）

read = #string containing a line or a part of the http response 
hexPat = re.compile(r'([0-9A-F]+)\r\n', re.I) 
match = re.search(hexPat, read) 
chunkLen = int(match.group(1), 16) #converts hexadecimal to decimal

，或者你可以只讀取第一個十六進制值，得到的第一個塊的長度和接收塊，然後獲得下一個塊的長度等等，直到找到0

來源

2012-06-17 00:41:50

感謝有關傳輸編碼的信息。你知道如何通過urllib2在你的代碼片段中獲取'讀'字符串嗎？如果我在上面的示例中嘗試使用r.read（），我會得到google.com的完整html代碼，並且沒有十六進制前綴告訴我塊大小或任何內容。 urllib2是否過高，無法一次檢查一個組塊的響應？ – user1369195

@ user1369195我不確定，但我認爲它太高級別。當我使用它時，我正在使用套接字進行低級別的工作。 –

一個HEAD響應的內容 - 長度應，但並不總是確實包括一個GET響應的Content-Length值：

Stack Overflow做：

> telnet stackoverflow.com 80 
HEAD/HTTP/1.1 
Host: stackoverflow.com 


HTTP/1.1 200 OK 
Cache-Control: public, max-age=60 
Content-Length: 362245       <-------- 
Content-Type: text/html; charset=utf-8 
Expires: Mon, 04 Oct 2010 11:51:49 GMT 
Last-Modified: Mon, 04 Oct 2010 11:50:49 GMT 
Vary: * 
Date: Mon, 04 Oct 2010 11:50:49 GMT

谷歌不會：

> telnet www.google.com 80 
HEAD/HTTP/1.1 
Host: www.google.ie 


HTTP/1.1 200 OK 
Date: Mon, 04 Oct 2010 11:55:36 GMT 
Expires: -1 
Cache-Control: private, max-age=0 
Content-Type: text/html; charset=ISO-8859-1 
Server: gws 
X-XSS-Protection: 1; mode=block 
Transfer-Encoding: chunked

來源

2012-06-16 21:18:02 ennuikiller

你知道有什麼方法可以在下載完整內容之前檢查頁面的大小嗎？當'content-length'頭部缺失時？ – user1369195

使用python的urllib2時缺少'content-length'標題urlopen

回答

相關問題