使用Java代碼進行Apache Nutch 1.9檢索

我們開發了一個數據處理管道，該管道使用Apache Nutch 1.4爲給定的一組配置的URL檢索Web數據。管道隨後應用一系列mapreduce任務來處理Web數據，最後將其索引到Solr中。我們使用預配置的hadoop集羣以及Amazon EMR。使用Java代碼進行Apache Nutch 1.9檢索

這個應用程序是在3年前開發的，並沒有使用近一年。當我們嘗試使用最新的EMR版本（4.x）運行它時，它失敗了。我想，Apache Nutch 1.4不再被支持，因爲它使用了舊版的hadoop版本（1.x）。所以我們決定升級到Nutch 1.9。但是，我們發現Nutch 1.9不再具有Crawl類（org.apache.nutch.crawl.Crawl），我們正在1.4版本中使用它來從Java代碼抓取。檢查文檔我發現建議的方法是使用腳本bin/crawl。

但是，根據我調用java代碼的腳本看起來不太好，因爲我們調用一個外部進程，使我們的控制更少。那麼我該如何繼續？寫我自己的org.apache.nutch.crawl.Crawl版本還是有一些我在這裏失蹤的其他類？

我的要求很簡單。我想從Java代碼調用Nutch API 1.9或更高版本。

來源

2015-10-05 cosmos

目前，對於Nutch的1.X正在開發一個REST API - https://wiki.apache.org/nutch/Nutch_1.X_RESTAPI

有沒有像你所談論的一個沒有直接爬API，但你可以嘗試調用作業使用REST端點看如果它們適合你的用例。

來源

2015-10-09 05:27:31

使用Java代碼進行Apache Nutch 1.9檢索

回答

相關問題