從新聞報道中提取主要內容（最高文本密度）網頁

HTMLCleaner是Java庫，用於安全地解析和轉換Web上發現的任何HTML到格式良好的XML。它設計的小巧，快速，靈活和獨立。 HtmlCleaner可用於Java代碼，命令行工具或Ant任務。解析結果是輕量級的文檔對象模型，可以很容易地轉換爲DOM或JDom等標準，或以各種方式（緊湊，漂亮打印等）序列化爲XML輸出。

您可以使用XPath與htmlcleaner得到XML中的內容/ HTML tags.Here是一個很好的
例如Xpath Example

來源

2012-03-02 12:30:11 RanRag

我們嘗試了很多開源爬蟲，像可讀性，對於同樣的美麗的湯等，但在測試Diffbot API後，我們決定用它來AppMarkt。它快速並從各種語言中很好地提取新聞文章。

來源

2014-03-09 12:08:51

從新聞報道中提取主要內容（最高文本密度）網頁

回答

相關問題