從Python 3.x網頁中提取文本

-1

我想從幾個網頁中提取文本。什麼是一個好的圖書館讓我做到這一點？

謝謝，巴里。

2011-12-13 Baz

根據你的目標，你可以使用module ** re **。 95％的人對這樣的建議感到fr but不安，但事實是，我確實從網頁中提取了帶有**和**的文本，並且滿意度很高，沒有發現他們警告的所有可怕的事情。 – eyquem 2011-12-13 21:22:37

和文檔，讓你開始

2011-12-13 19:57:04

我聽說lxml比BeautifulSoup快，但任何一個都應該可以工作。 – 2011-12-13 19:59:48

mechanize是好的庫，但遺憾的是沒有準備好蟒蛇3，但是你可以在lxml.html

2011-12-13 19:58:06 pna

我看看會建議使用Beautiful Soup，而不僅僅是通過返回的結構來處理類似於電子郵件的任何事情地址。

你也可以爲此使用urllib2，但美麗的湯會爲你處理很多語法問題。

2011-12-13 19:59:06 Casey

你不說你想要什麼做與提取的文本，這使得我們有多少精力願意去爲了把它弄出來一個大差異。

如果你想獲得一個網頁的正文減去所有網站相關克魯夫特（一平凡任務）的，看看boilerpipe。它是用Java編寫的，但它在從隨機網頁中獲取重要文本方面做得非常出色。

未來幾周我的業餘愛好之一是在Python中重新創建boilerpipe的核心邏輯。我們需要它爲一個項目提供的功能，但不希望拖拽與它相關的JVM的10噸岩石。我很肯定，一旦它相當穩定，我們會發布它。

2011-12-13 20:24:19

回答