2010-12-21 29 views
2

是否可以解析一個wiki而不需要轉儲,因爲轉儲本身就是太多的數據無法處理。因此,可以說我擁有某個wiki的url,並且一旦我通過urllib調用它,我如何解析它並使用python獲取某種類型的數據。我如何解析一個wiki頁面而不用在python中轉儲它?

這裏的類型意味着一個特定的數據對應的語義匹配的搜索將已經完成。

+0

你可以給「某些類型的數據」的一個例子,你是否試圖從網頁上刮掉? – thirtydot 2010-12-21 19:48:06

+1

我不明白你的問題,但如果你想要的頁面的來源,你可以使用[pyWikipediabot](http://meta.wikimedia.org/wiki/Pywikipediabot) – pythonFoo 2010-12-21 19:50:25

回答

1

您需要HTML解析器才能從HTML獲取有用的數據。您可以使用BeautifulSoup來幫助解析HTML。我建議你閱讀documentation並看看那裏的例子。

0

我建議的選項,如Harvestman代替,因爲語義搜索很可能會拋出多頁,比如BS一個簡單的解決方案

相關問題