2
據對這個職位的答案被@Jens蒂默曼:Extract the first paragraph from a Wikipedia article (Python)錯誤爬行維基
我這樣做:
import urllib2
def getPage(url):
opener = urllib2.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0')] #wikipedia needs this
resource = opener.open("http://en.wikipedia.org/wiki/" + url)
data = resource.read()
resource.close()
return data
print getPage('Steve_Jobs')
技術上應該正常運行,並給我的頁面的源代碼。但這裏是我得到:
任何幫助,將不勝感激..
爲什麼抓取維基百科,如果你可以使用自己的[API](http://www.mediawiki.org/wiki/API)? – NullUserException
@NullUserException,我很抱歉,但我討厭像你這樣的評論。 OP想用'python'來完成,我們能不能僅僅關注幫助他實現,而不是建議其他方法? –
@ l19:NullUserException是完全正確的;維基百科API可以用於Python(實際上,這是最常見的情況之一),因爲它們只是簡單的HTTP請求,就像我們現在正在討論的那樣。所不同的是,他們通常更靈活,返回的數據通常是在機器可讀的格式,這是典型的爲我們的腳本大加*和*維基百科服務器,不必浪費時間渲染鏈接到MediaWiki標記。 –