使用Python從Wikipedia html中提取文本

我正在嘗試尋找一種方法來使用python來提取維基百科文章的主要文本。我知道「維基百科」庫，但在我的情況下，我已經下載了html頁面，而我只需要提取文本。我無法使用該庫，因爲我需要使用幾年前下載的維基百科頁面html，所以我無法從頭開始下載它。使用Python從Wikipedia html中提取文本

有沒有可用於此目的的「現成」解決方案？

來源

2014-10-09 markusian

作爲@CodeNinja說，[BeatifulSoup（http://www.crummy.com/software/BeautifulSoup/）是一個偉大的工具，你可以按照教程[輕鬆使用Python進行網頁掃描]（http://blog.miguelgrinberg.com/post/easy-web-scraping-with-python）瞭解更多信息。 – 2014-10-09 18:14:45

我已經在這裏回答了類似的問題：http://stackoverflow.com/questions/23671560/unable-to-scrape-certain-values-of-a-website-using-regex/23672014#23672014 – Vipul 2014-10-09 18:38:24

我知道關於beautifulsoup和我已經在過去使用過它。我尋找的東西並不需要我去考慮哪些標籤，也可以刪除所有的wiki格式，例如參考（[1]，...）。 – markusian 2014-10-09 22:11:38

嘗試BeautifulSoup：

from bs4 import BeautifulSoup 
import requests 

respond = requests.get("http://pl.wikipedia.org/wiki/StackOverflow") 
soup = BeautifulSoup(respond.text) 
l = soup.find_all('p') 
print l[0].text

來源

2014-10-09 17:59:08 CodeNinja

使用Python從Wikipedia html中提取文本

回答

相關問題