我創建了一個函數來讀取特定網址的HTML內容。這裏是代碼:Python有時返回奇怪的結果當從URL讀取HTML
def __retrieve_html(self, address):
html = urllib.request.urlopen(address).read()
Helper.log('HTML length', len(html))
Helper.log('HTML content', html)
return str(html)
但是,該函數並不總是返回正確的字符串。在某些情況下,它會返回一個非常奇怪的字符串。
例如,如果我使用的網址:http://www.merdeka.com
,有時它會給出正確的HTML字符串,但有時也返回類似結果:
HTML content: b'\x1f\x8b\x08\x00\x00\x00\x00\x00\x00\x03\xed\xfdyW\x1c\xb7\xd28\x8e\xffm\x9f\x93\xf7\xa0;y>\xc1\xbeA\xcc\xc2b\x03\x86\x1cl\xb0\x8d1\x86\x038yr\......Very long and much more characters.
它似乎只在有任何的網頁發生很多內容。對於像Facebook.com登錄頁面和Google.com索引這樣的簡單頁面,它從未發生過。這是什麼?我的錯誤在哪裏以及如何處理?
是的,它的工作原理。你是對的先生。謝謝! – yunhasnawa