-1
A
回答
3
http://www.crummy.com/software/BeautifulSoup/
和文檔,讓你開始
http://www.crummy.com/software/BeautifulSoup/documentation.html
+0
我聽說lxml比BeautifulSoup快,但任何一個都應該可以工作。 – 2011-12-13 19:59:48
1
mechanize
是好的庫,但遺憾的是沒有準備好蟒蛇3,但是你可以在lxml.html
1
我看看會建議使用Beautiful Soup,而不僅僅是通過返回的結構來處理類似於電子郵件的任何事情 地址。
你也可以爲此使用urllib2,但美麗的湯會爲你處理很多語法問題。
1
你不說你想要什麼做與提取的文本,這使得我們有多少精力願意去爲了把它弄出來一個大差異。
如果你想獲得一個網頁的正文減去所有網站相關克魯夫特(一平凡任務)的,看看boilerpipe。它是用Java編寫的,但它在從隨機網頁中獲取重要文本方面做得非常出色。
未來幾周我的業餘愛好之一是在Python中重新創建boilerpipe的核心邏輯。我們需要它爲一個項目提供的功能,但不希望拖拽與它相關的JVM的10噸岩石。我很肯定,一旦它相當穩定,我們會發布它。
相關問題
- 1. 從網頁中提取文本
- 2. Visual Basic - 從網頁中提取文本
- 3. 從網頁中提取文本信息
- 4. Python 3 PDF文本提取
- 5. Python 3.x RAR文件提取
- 6. 如何使用python 2.7從網頁中提取文本?
- 7. 使用xpath-selenium-python從網頁中提取文本/數字
- 8. Python:從網頁獲取乘文本值
- 9. beatifulsoup從網頁中提取數據python
- 10. Python 3 - 從文件中讀取文本
- 11. 從python文本文件中提取數據3
- 12. 在更改頁面後,用vba從網頁中提取文本
- 13. 從.doc文件中提取文本python
- 14. 從html文件中提取文本python
- 15. Python從文件中提取文本塊
- 16. 從網頁中提取通用文章
- 17. Python 3.X從表中讀取空值
- 18. 從網頁抓取文本
- 19. 從網頁獲取文本
- 20. 從網頁獲取文本
- 21. 從Python 3.x列表中提取IP和端口
- 22. 使用python和beautlfulsoup從網站中的href中提取文本
- 23. Reactor 3.x(Java):用於網頁抓取
- 24. 從TWebBrowser中顯示的網頁中提取文本
- 25. 提取網頁數據Python
- 26. 從Python中的多個網頁中刮取文本
- 27. Python和pyPdf - 如何從網頁中提取文本,以便有行
- 28. Python:從url中提取文本請求
- 29. Python - 從字符串中提取文本
- 30. 從Quora中提取「(more)」文本Selenium - Python
根據你的目標,你可以使用module ** re **。 95%的人對這樣的建議感到fr but不安,但事實是,我確實從網頁中提取了帶有**和**的文本,並且滿意度很高,沒有發現他們警告的所有可怕的事情。 – eyquem 2011-12-13 21:22:37