我有以下代碼打開和讀取網址:Python的urllib2的解碼塊編碼
html_data = urllib2.urlopen(req).read()
,我相信這是讀取HTTP數據的最標準的方式。 然而,當響應具有chunked tranfer-encoding,響應開始與以下字符:
1eb0\r\n2625\r\n
<?xml version="1.0" encoding="UTF-8"?>
...
發生這種情況,由於上述分塊編碼所提到的,因此我的XML數據已損壞。
所以我想知道如何擺脫所有與分塊編碼有關的元數據?
當您嘗試加載在Web瀏覽器的源數據會發生什麼\ r \ n是段開始/停止(十六進制)的位置?你有1eb0還是2625?那些(和其他)數字是否一致? – chaimp
不,瀏覽器正確處理它 – dragoon