提取文本

-2

可能重複：
Extracting text from HTML file using Python 提取文本

什麼是Python中的最佳方式來提取HTML頁面的文本以同樣的方式，當你複製到瀏覽器不-糊？

來源

2012-01-13 Mark Vital

可能重複。我推薦這個答案：http://stackoverflow.com/a/3987802/117092 – luc 2012-01-13 06:26:33

BeautifulSoup是閱讀和解析HTML頁面的流行選項。

來源

2012-01-13 02:19:46 Makoto

黨。什麼容易的點，@Makoto！ '：D' – Droogans 2012-01-13 02:48:18

question monkut引用沒有給出任何Python解決方案的確切問題。雖然BeautifulSoup和lxml都可以用來解析html，但從那裏到文本仍然有一大步，這些文字近似嵌入在html中的格式。爲了做到這一點，我使用了非python解決方案（我已經在博客中介紹過，但會拒絕在這裏鏈接 - 不確定SO禮節）。如果您使用* nix系統，則可以安裝德國的this html2text package。它可以很容易地安裝在MacOS上，使用Homebrew（$ brew install html2text）或Macports（$ sudo port install html2text）以及其他* nix系統通過軟件包管理器輕鬆安裝。它有許多有用的選項，我用它是這樣的：

html2text -nobs -ascii -width 200 -style pretty -o filename.txt - < filename.html

您還可以安裝一個基於文本的瀏覽器（例如w3m），並使用以下命令用它製作格式的文本從HTML直插式的語法： w3m filename.html -dump > file.txt

你可以，當然，從Python的使用subprocess模塊或流行envoy包裝爲subprocess訪問這些解決方案。即使經過這麼多的努力，您可能會發現某些重要信息（例如<u>標籤）沒有以您喜歡的方式處理，但那些是我找到的最佳當前選項。

來源

2012-01-13 04:46:52 Ari

回答

相關問題