什麼是Python中的最佳方式來提取HTML頁面的文本以同樣的方式,當你複製到瀏覽器不-糊?
Q
提取文本
-2
A
回答
4
2
questionmonkut引用沒有給出任何Python解決方案的確切問題。雖然BeautifulSoup和lxml都可以用來解析html,但從那裏到文本仍然有一大步,這些文字近似嵌入在html中的格式。爲了做到這一點,我使用了非python解決方案(我已經在博客中介紹過,但會拒絕在這裏鏈接 - 不確定SO禮節)。如果您使用* nix系統,則可以安裝德國的this html2text package。它可以很容易地安裝在MacOS上,使用Homebrew($ brew install html2text
)或Macports($ sudo port install html2text
)以及其他* nix系統通過軟件包管理器輕鬆安裝。它有許多有用的選項,我用它是這樣的:
html2text -nobs -ascii -width 200 -style pretty -o filename.txt - < filename.html
您還可以安裝一個基於文本的瀏覽器(例如w3m),並使用以下命令用它製作格式的文本從HTML直插式的語法: w3m filename.html -dump > file.txt
你可以,當然,從Python的使用subprocess模塊或流行envoy包裝爲subprocess
訪問這些解決方案。即使經過這麼多的努力,您可能會發現某些重要信息(例如<u>
標籤)沒有以您喜歡的方式處理,但那些是我找到的最佳當前選項。
相關問題
- 1. 提取文本
- 2. 提取文本()
- 3. 提取文本
- 4. 提取文本
- 5. 提取文本
- 6. 提取文本
- 7. 提取文本
- 8. 提取文本
- 9. 提取文本
- 10. 提取文本
- 11. 提取文本
- 12. Perl提取文本
- 13. XML文本提取
- 14. 提取QHeaderView文本
- 15. Xquery提取文本
- 16. 提取從文本
- 17. Perl文本提取
- 18. 提取文本串
- 19. 提取PDF文本
- 20. 提取文本PHP
- 21. 文本提取PHP
- 22. Jsoup - 提取文本
- 23. pdf文本提取
- 24. NSRegularExpression提取文本
- 25. 提取文本文件
- 26. 從HTML文本提取標題文本
- 27. 在「?」之後提取文本
- 28. beautifulsoup不提取文本
- 29. imacros提取文本javascript
- 30. 文本中提取功能
可能重複。我推薦這個答案:http://stackoverflow.com/a/3987802/117092 – luc 2012-01-13 06:26:33