2011-12-13 31 views
-1

我正在使用Python 3.x從Python 3.x網頁中提取文本

我想從幾個網頁中提取文本。什麼是一個好的圖書館讓我做到這一點?

謝謝, 巴里。

+0

根據你的目標,你可以使用module ** re **。 95%的人對這樣的建議感到fr but不安,但事實是,我確實從網頁中提取了帶有**和**的文本,並且滿意度很高,沒有發現他們警告的所有可怕的事情。 – eyquem 2011-12-13 21:22:37

回答

1

mechanize是好的庫,但遺憾的是沒有準備好蟒蛇3,但是你可以在lxml.html

1

我看看會建議使用Beautiful Soup,而不僅僅是通過返回的結構來處理類似於電子郵件的任何事情 地址。

你也可以爲此使用urllib2,但美麗的湯會爲你處理很多語法問題。

1

你不說你想要什麼與提取的文本,這使得我們有多少精力願意去爲了把它弄出來一個差異。

如果你想獲得一個網頁的正文減去所有網站相關克魯夫特(一平凡任務)的,看看boilerpipe。它是用Java編寫的,但它在從隨機網頁中獲取重要文本方面做得非常出色。

未來幾周我的業餘愛好之一是在Python中重新創建boilerpipe的核心邏輯。我們需要它爲一個項目提供的功能,但不希望拖拽與它相關的JVM的10噸岩石。我很肯定,一旦它相當穩定,我們會發布它。