2015-10-05 20 views
0

我們開發了一個數據處理管道,該管道使用Apache Nutch 1.4爲給定的一組配置的URL檢索Web數據。管道隨後應用一系列mapreduce任務來處理Web數據,最後將其索引到Solr中。我們使用預配置的hadoop集羣以及Amazon EMR。使用Java代碼進行Apache Nutch 1.9檢索

這個應用程序是在3年前開發的,並沒有使用近一年。當我們嘗試使用最新的EMR版本(4.x)運行它時,它失敗了。我想,Apache Nutch 1.4不再被支持,因爲它使用了舊版的hadoop版本(1.x)。所以我們決定升級到Nutch 1.9。但是,我們發現Nutch 1.9不再具有Crawl類(org.apache.nutch.crawl.Crawl),我們正在1.4版本中使用它來從Java代碼抓取。檢查文檔我發現建議的方法是使用腳本bin/crawl

但是,根據我調用java代碼的腳本看起來不太好,因爲我們調用一個外部進程,使我們的控制更少。 那麼我該如何繼續?寫我自己的org.apache.nutch.crawl.Crawl版本還是有一些我在這裏失蹤的其他類?

我的要求很簡單。我想從Java代碼調用Nutch API 1.9或更高版本。

回答

0

目前,對於Nutch的1.X正在開發一個REST API - https://wiki.apache.org/nutch/Nutch_1.X_RESTAPI

有沒有像你所談論的一個沒有直接爬API,但你可以嘗試調用作業使用REST端點看如果它們適合你的用例。