如何從網頁中提取文本內容？

我正在開發一個可以從不同網頁獲取文本信息的應用程序，並將其彙總到一個頁面中。例如，假設我在印度教，印度時報，政治家等不同的網頁上有新聞。現在我的應用程序應該從這些頁面中的每一箇中提取重要的點，並將它們合併爲一個新聞。該應用程序基於Web內容挖掘的概念。作爲此領域的初學者，我無法理解在何處開始。我已經通過研究論文解釋了噪聲消除作爲構建此應用程序的第一步。因此，如果我得到一個新聞網頁，第一步就是從頁面中提取主要新聞，不包括超鏈接，廣告，無用圖片等。我的問題是我該如何做到這一點？請給我一些很好的教程，解釋使用Web內容挖掘這種應用程序的實現。或者至少給我一些提示如何實現它？如何從網頁中提取文本內容？

來源

2012-02-09 dark_shadow

您可以使用readability或boilerpipe這兩個用於此任務的開源工具。對於教程，您應該閱讀這兩個項目的代碼&文檔。

來源

2012-02-09 17:17:56

我聽說過關於boilerpipe及其相當不錯，但我想自己做，這樣我就可以從中吸取教訓。請告訴我如何才能做到這一點？應該遵循哪些步驟？ – 2012-02-09 18:02:24

搜索Google學者的論文。閱讀現有實現的代碼。構建網站評估語料庫和正確的文本提取。計算每個提取器的工作原理。看看錯誤，考慮如何解決它們，改進提取器。 – 2012-02-09 18:28:28

感謝您的幫助。 – 2012-02-09 19:34:39

如何從網頁中提取文本內容？

回答

相關問題