我想使用Python從HTML文件中提取文本。如果我從瀏覽器複製文本並將其粘貼到記事本中,我基本上需要獲得相同的輸出。html轉換爲使用python語言進行文本轉換
我想要一些比使用正則表達式更強大的東西,而這些正則表達式可能會在形成不良的HTML時失敗。我見過很多人推薦美麗的湯,但我使用它有一些問題。首先,它收集了不需要的文本,例如JavaScript源代碼。另外,它沒有解釋HTML實體。例如,我希望HTML源代碼中的'
可以轉換爲文本中的撇號,就像我將瀏覽器內容粘貼到記事本一樣。
更新:html2text
看起來很有希望。它正確處理HTML實體並忽略JavaScript。但是,它並不完全產生純文本;它產生降價,然後不得不變成純文本。它沒有任何示例或文檔,但代碼看起來很乾淨。
如果只有生活如此簡單......你知道HTML是如何工作的嗎?您是否已經在例如記事本? – katrielalex 2010-08-19 13:08:41
問題更新請看看......... – 2010-08-19 13:12:15
沒有什麼魔法工具可以刪除所有東西。所有的網頁將被加載東西。更好地抓住它,然後替換撇號並刪除JavaScript。 – JiminyCricket 2010-08-19 13:17:07