beautifulsoup4
碰巧在某些情況下會截斷無效(我猜)html。我很想強迫它不這樣做。我假設在那裏沒有「正式」的方式,但也許你已經在某種程度上完成了?防止bs4截斷html
0
A
回答
1
如果HTML被破壞,重建可行的元素樹並不總是可能的。但是,您可以嘗試使用不同的後端解析器。並非所有的解析器都可以將破碎的HTML視爲相同。
的html5lib
解析器是在處理損壞的HTML尤其擅長,處理這樣的輸入相同,將多數瀏覽器:
soup = BeautifulSoup(htmlcontent, 'html5')
您也可以嘗試lxml
這裏。這兩個庫都是單獨安裝的。
+0
謝謝。性能不是一個關心這裏只是好奇,是'html5'慢或它只是我? – nutship
+1
'html5lib'確實比較慢,它做了很多工作。 –
相關問題
- 1. Rails控制檯截斷Activerecord輸出 - 如何防止截斷?
- 2. 如何防止PowerCharts截斷軸標籤?
- 3. 如何防止在RelativeLayout中截斷
- 4. 防止UiNavigationBar標題被截斷?
- 5. 如何防止越來越截斷
- 6. 如何防止REPL截斷輸出?
- 7. 如何防止Highcharts截斷類別?
- 8. 如何防止SoundPool截斷聲音
- 9. Django HTML截斷
- 10. 截斷文本,但不截斷HTML
- 11. 防止Word斷
- 12. 截斷HTML錯誤?
- 13. 截斷HTML液體
- 14. 用TranslateX預防截止點
- 15. 停止截斷Java文件?
- 16. 截止第四斷行
- 17. 使用jquery dotdotdot截斷時,防止閃爍全文
- 18. 防止更新,刪除和截斷數據庫表
- 19. 如何防止截斷Flex組合框中文本的底部?
- 20. 如何防止AS3中的此任意文本截斷
- 21. 如何防止PHP字符串在1997字符後截斷
- 22. 如何防止在Android上截斷快餐欄文本?
- 23. 如何防止在使用UITableViewCellStyleValue1時截斷textLabel?
- 24. 如何防止字在XSLT中被截斷
- 25. SAS批量提交 - 防止每行256個字符的截斷?
- 26. iPhone:防止文本截斷與UITableView的風格UITableViewCellStyleValue1
- 27. 防止python截斷用作鍵的數據
- 28. 如何防止Graphite URL API中的圖形截斷?
- 29. 繪製區域填充以防止符號被截斷。 (Core Plot)
- 30. 如何防止在單元測試中截斷字符串python
請給出一個HTML輸入的例子,你看到的輸出,你使用的代碼,你使用的bs4版本,以及哪個解析器(和解析器版本,以及,如果它是lxml, libxml2版本)。 – abarnert