大任務:我正在嘗試獲取網頁摘要的幾行內容。即我想有一個函數可以接收一個URL並返回該頁面中最具信息量的段落。 (這通常是實際內容文本的第一段,與導航欄等「垃圾文本」形成鮮明對比)。Python:檢測字符串中的實際文本段落
因此,我設法通過刪除標籤來將HTML頁面縮減爲一堆文本,扔出<HEAD>
和所有腳本。但有些文字仍然是「垃圾文字」。我想知道文本的實際段落在哪裏開始。 (理想情況下,它應該與人類語言無關,但如果您只有英文解決方案,這可能也有幫助。)
如何確定哪些文本是「垃圾文本」,哪一個是實際內容?
更新:我看到一些人指出我使用HTML解析庫。我正在使用美麗的湯。我的問題是不解析HTML;我已經擺脫了所有的HTML標籤,我只是有一堆文本,我想分離文本和垃圾文本。
你能後你有文本的樣本?你想要它成爲什麼?關於用正則表達式解析HTML - 強制性鏈接 - http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454 – Oded 2010-07-24 16:18:13
這是一個來自網頁:http://cool-rr.com/sample_text.delete_me.txt它恰好是來自Python文檔的頁面。 – 2010-07-24 16:41:16
我刪除了'[regex]'標籤,因爲它似乎在欺騙人們認爲你想用正則表達式從頁面中提取文本,但這不是你的問題。這實際上是一個文本處理問題。它幾乎沒有任何與HTML有關的事情;從網頁中提取文本的事實並不重要,除非您希望嘗試使用HTML標記來幫助您識別重要的文本片段。 – 2010-07-24 18:39:18