我一直在使用BeautifulSoup,但據我所知,庫不再被維護。那我該用什麼?我聽說過Xpath,但還有什麼?沒有更多BeautifulSoup
回答
有一個bugfix release in April,所以我也不知道你在哪裏得到的想法,它不再維持。然而,即使這是真的,BeautifulSoup仍然有很多功能,我甚至都沒有看到即使目前的實現很快就會崩潰。您可能會在未來2年內開始遇到HTML 5的問題(雖然有很少的怪癖,因此解析起來更容易,至少目前爲止),但沒有特別的理由不使用BeautifulSoup。 Google社羣仍然積極支持Google等羣組,並且顯然可以根據您的需要隨時增強源代碼。
酷..非常感謝你:-) – 2010-07-17 18:10:38
那麼,如果你不是義務綁定到python,你總是可以使用TagSoup解析器。這是一個Java庫,但它提供了非常好的結果。在嘗試解析它之前,您也可以使用Tidy清理輸入。
Python是我所知道的,我正在學習的時刻。 – 2010-07-17 18:13:29
我會避開lxml
,它對我的口味太挑剔了。如果我是你,我會嘗試html5lib
。它不僅解析html,而且強大地處理您在標籤湯中看到的那種稱爲無效html的錯誤。
它甚至有一個BeautifulSoup仿真模式,產生於美麗的湯的形式來緩解整個移植舊代碼解析樹:
import html5lib
from html5lib import treebuilders
f = open("mydocument.html")
parser = html5lib.HTMLParser(tree=treebuilders.getTreeBuilder("beautifulsoup"))
minidom_document = parser.parse(f)
- 1. 'BeautifulSoup' 有沒有屬性 '__version__'
- 2. BeautifulSoup沒有發現屬性
- 3. beautifulsoup沒有印刷環節
- 4. BeautifulSoup沒有返回結果
- 5. py2app沒有找到BeautifulSoup
- 6. BeautifulSoup沒有返回源
- 7. BeautifulSoup類HTTPResponse有沒有屬性編碼
- 8. Beautifulsoup沒有得到所有tr在表
- 9. 如何更換IMG標記使用python沒有Beautifulsoup
- 10. 用BeautifulSoup刮擦:物體沒有屬性
- 11. BeautifulSoup encoding.bytes沒有名爲find_all的屬性?
- 12. 解析沒有BeautifulSoup的文件
- 13. python沒有內容的Beautifulsoup count元素
- 14. Beautifulsoup沒有達到一個子元素
- 15. Python中沒有找到由BeautifulSoup
- 16. BeautifulSoup沒有正確讀取文檔
- 17. Python和BeautifulSoup,沒有找到 'A'
- 18. BeautifulSoup + HTML + Regex = ...什麼都沒有?
- 19. BeautifulSoup:'ResultSet'對象沒有屬性'find_all'
- 20. 沒有名爲beautifulsoup的模塊
- 21. 沒有更多SQL備份
- 22. 與beautifulsoup多個類
- 23. 多重BeautifulSoup bs4.element.Tag
- 24. 解析更改標籤BeautifulSoup
- 25. beautifulsoup ATTRS匹配太多
- 26. python beautifulsoup搜索多行
- 27. ajax隱藏加載更多按鈕沒有更多的數據
- 28. 更多標籤沒有顯示「閱讀更多」WordPress的
- 29. beautifulsoup「列表對象有沒有屬性」的錯誤
- 30. 錯誤與Beautifulsoup式「結果」對象有沒有屬性「的findAll」
「這取決於」。你在尋找一個XML解析器還是一個真實的html解析器? – 2010-07-14 08:35:32
「庫不再被維護」。請提供這一說法的證據。 – 2010-07-14 12:18:07
嗯,事情是,我的一個同事告訴我,這個人通常是很瞭解..但顯然不是在這種情況下 – 2010-07-17 18:12:28