2011-08-01 63 views
1

我正在使用機械化來解析網站的html,但與此網站我得到了奇怪的結果。Python urllib2解析html問題

from mechanize import Browser 
br = Browser() 
r = br.open("http://www.heavenplaza.com") 
result = r.read() 

結果是我不明白的東西。你可以看到這裏:http://paste2.org/p/1556077

任何人都可以有一些方法來獲得該網站的HTML?機械化或urllib。

感謝

+1

請張貼的結果答案,而不是在引擎收錄。特別是當結果是一行時! – senderle

回答

1
import urllib2, StringIO, gzip 
f = urllib2.urlopen("http://www.heavenplaza.com") 
data = StringIO.StringIO(f.read()) 
gzipper = gzip.GzipFile(fileobj=data) 
print gzipper.read() 
+0

得到它的工作,非常感謝:) – kairyu

1

我趕緊檢查了腳本的控制檯和網站返回的廢話。您可能需要將您的HTTP用戶代理欺騙爲網站認爲您不使用機器人的其他內容。

http://www.google.com工作

+0

這是我的用戶代理:br.addheaders = [('User-Agent','Mozilla/5.0(Windows; U; Windows NT 6.1; en-US; rv:1.9.2.17)Gecko/20110420 Firefox/3.6。 17')],這也不起作用。 – kairyu

+0

根據上面的回覆,該網站沒有正確地承認/使用接受結束的gzip標頭 –