2012-02-09 56 views
0

我正在開發一個可以從不同網頁獲取文本信息的應用程序,並將其彙總到一個頁面中。例如,假設我在印度教,印度時報,政治家等不同的網頁上有新聞。現在我的應用程序應該從這些頁面中的每一箇中提取重要的點,並將它們合併爲一個新聞。該應用程序基於Web內容挖掘的概念。作爲此領域的初學者,我無法理解在何處開始。我已經通過研究論文解釋了噪聲消除作爲構建此應用程序的第一步。因此,如果我得到一個新聞網頁,第一步就是從頁面中提取主要新聞,不包括超鏈接,廣告,無用圖片等。我的問題是我該如何做到這一點?請給我一些很好的教程,解釋使用Web內容挖掘這種應用程序的實現。或者至少給我一些提示如何實現它?如何從網頁中提取文本內容?

回答

9

您可以使用readabilityboilerpipe這兩個用於此任務的開源工具。對於教程,您應該閱讀這兩個項目的代碼&文檔。

+0

我聽說過關於boilerpipe及其相當不錯,但我想自己做,這樣我就可以從中吸取教訓。請告訴我如何才能做到這一點?應該遵循哪些步驟? – 2012-02-09 18:02:24

+2

搜索Google學者的論文。閱讀現有實現的代碼。構建網站評估語料庫和正確的文本提取。計算每個提取器的工作原理。看看錯誤,考慮如何解決它們,改進提取器。 – 2012-02-09 18:28:28

+0

感謝您的幫助。 – 2012-02-09 19:34:39