我知道像html2text,BeautifulSoup等utils,但問題是,他們也提取JavaScript並將其添加到文本使它很難分開。使用Python從HTML中提取可讀文本?
htmlDom = BeautifulSoup(webPage)
htmlDom.findAll(text=True)
或者,
from stripogram import html2text
extract = html2text(webPage)
這些都提取所有的JavaScript的網頁上爲好,這是不需要的。
我只是想要可讀的文本,你可以從你的瀏覽器中複製來提取。
謝謝!完美地完成這項工作。 – demos 2010-07-04 01:10:54
@demos,不客氣,很高興聽到這個!順便說一句,爲什麼接受(和順便說一句吧!)沒有upvote?似乎很奇怪! - ) – 2010-07-04 02:55:00
@Alex Martelli第一次是從我這裏得到的。真可惜,在19個月裏,這個答案沒有得到任何讚揚! – eyquem 2012-02-07 18:50:50