2014-10-09 31 views
1

我正在嘗試尋找一種方法來使用python來提取維基百科文章的主要文本。我知道「維基百科」庫,但在我的情況下,我已經下載了html頁面,而我只需要提取文本。我無法使用該庫,因爲我需要使用幾年前下載的維基百科頁面html,所以我無法從頭開始下載它。使用Python從Wikipedia html中提取文本

有沒有可用於此目的的「現成」解決方案?

+0

作爲@CodeNinja說,[BeatifulSoup(http://www.crummy.com/software/BeautifulSoup/)是一個偉大的工具,你可以按照教程[輕鬆使用Python進行網頁掃描](http://blog.miguelgrinberg.com/post/easy-web-scraping-with-python)瞭解更多信息。 – 2014-10-09 18:14:45

+0

我已經在這裏回答了類似的問題:http://stackoverflow.com/questions/23671560/unable-to-scrape-certain-values-of-a-website-using-regex/23672014#23672014 – Vipul 2014-10-09 18:38:24

+0

我知道關於beautifulsoup和我已經在過去使用過它。我尋找的東西並不需要我去考慮哪些標籤,也可以刪除所有的wiki格式,例如參考([1],...)。 – markusian 2014-10-09 22:11:38

回答

2

嘗試BeautifulSoup

from bs4 import BeautifulSoup 
import requests 

respond = requests.get("http://pl.wikipedia.org/wiki/StackOverflow") 
soup = BeautifulSoup(respond.text) 
l = soup.find_all('p') 
print l[0].text