2012-01-13 91 views

回答

4

BeautifulSoup是閱讀和解析HTML頁面的流行選項。

+0

黨。什麼容易的點,@Makoto! ':D' – Droogans 2012-01-13 02:48:18

2

questionmonkut引用沒有給出任何Python解決方案的確切問題。雖然BeautifulSoup和lxml都可以用來解析html,但從那裏到文本仍然有一大步,這些文字近似嵌入在html中的格式。爲了做到這一點,我使用了非python解決方案(我已經在博客中介紹過,但會拒絕在這裏鏈接 - 不確定SO禮節)。如果您使用* nix系統,則可以安裝德國的this html2text package。它可以很容易地安裝在MacOS上,使用Homebrew($ brew install html2text)或Macports($ sudo port install html2text)以及其他* nix系統通過軟件包管理器輕鬆安裝。它有許多有用的選項,我用它是這樣的:

html2text -nobs -ascii -width 200 -style pretty -o filename.txt - < filename.html

您還可以安裝一個基於文本的瀏覽器(例如w3m),並使用以下命令用它製作格式的文本從HTML直插式的語法: w3m filename.html -dump > file.txt

你可以,當然,從Python的使用subprocess模塊或流行envoy包裝爲subprocess訪問這些解決方案。即使經過這麼多的努力,您可能會發現某些重要信息(例如<u>標籤)沒有以您喜歡的方式處理,但那些是我找到的最佳當前選項。