2015-07-13 54 views
2

我想要在特定網站上獲取html文檔。我如何使用python獲取html?

此代碼運行良好。

import urllib2 

link = "https://www.google.com" 
print link 
f = urllib2.urlopen(link) 
myfile = f.read() 
print myfile 

但這段代碼不起作用。

import urllib2 

link = "https://www.virustotal.com/en/file/7cf757e0943b0a6598795156c156cb90feb7d87d4a22c01044499c4e1619ac57/analysis/" 
print link 
f = urllib2.urlopen(link) 
myfile = f.read() 
print myfile 

爲什麼不工作的特定網站?

+2

您是否收到錯誤或只是一個空文件? – Scironic

+0

你怎麼知道它不工作? –

+0

只是空文件... – somputer

回答

1

這很奇怪,我不知道爲什麼urllib2不工作。

雖然我試過這個代碼與硒工作,它是爲我工作。

from selenium import webdriver 
url = 'https://www.virustotal.com/en/file/7cf757e0943b0a6598795156c156cb90feb7d87d4a22c01044499c4e1619ac57/analysis/' 
mydriver = webdriver.PhantomJS() 
mydriver.get(url) 
page = mydriver.page_source 
print page.encode('utf-8') 

如果您不知道phantomjs,它只是一個無頭瀏覽器。 您可以使用FireFox更改幻影,它仍然可以正常工作

+0

它運作良好。我發現另一種使用virustotal api的方法。謝謝。 – somputer

相關問題