我想製作一個代碼以從新聞網站提取主要新聞。新聞網站包含主要新聞,廣告,評論,版權聲明,所以我只想得到像鍋爐一樣的主要新聞,但我想知道如何做到這一點。從新聞報道中提取主要內容(最高文本密度)網頁
所以我想知道如何做這項工作的過程。
Sudhanshu
我想製作一個代碼以從新聞網站提取主要新聞。新聞網站包含主要新聞,廣告,評論,版權聲明,所以我只想得到像鍋爐一樣的主要新聞,但我想知道如何做到這一點。從新聞報道中提取主要內容(最高文本密度)網頁
所以我想知道如何做這項工作的過程。
Sudhanshu
的boilerpipe網站包含源代碼,快速啓動指令,鏈接到原始科學論文和到相應的會議演示視頻:
http://code.google.com/p/boilerpipe/
這應該給你一個比較全面的一套有關如何工作的信息以及如何在您的方案中應用此信息。
最佳,
基督教
JSOUP提供一個API,用於解析HTML
我會給htmlcleaner一試。
HTMLCleaner是Java庫,用於安全地解析和轉換Web上發現的任何HTML到格式良好的XML。它設計的小巧,快速,靈活和獨立。 HtmlCleaner可用於Java代碼,命令行工具或Ant任務。解析結果是輕量級的文檔對象模型,可以很容易地轉換爲DOM或JDom等標準,或以各種方式(緊湊,漂亮打印等)序列化爲XML輸出。
您可以使用XPath
與htmlcleaner得到XML中的內容/ HTML tags.Here是一個很好的
例如Xpath Example
我們嘗試了很多開源爬蟲,像可讀性,對於同樣的美麗的湯等,但在測試Diffbot API後,我們決定用它來AppMarkt。它快速並從各種語言中很好地提取新聞文章。