2013-07-21 55 views
1

有人請引導我進入正確的方向。我試圖讓Nutch在亞馬遜EMR上工作。到目前爲止,我可以讓nutch在本地運行,並使用它附帶的shell腳本啓動它。nutch在EMR上運行

但是,在亞馬遜上,我需要指定一個JAR位置和選項。我可以通過自己編譯來得到jar。然而,就啓動選項而言,我不知道從哪裏開始。

此外,1.x和Nutch 2.0之間的主要區別是什麼。 EMR推薦的是另一種嗎?

回答

0

如果你還在尋找一個答案:

當你創建Nutch的,你會看到在deploy目錄工作罐子,上傳這S3和參考,當你定製罐,同時設置啓動EMR作業流程。

然後,您可以添加步驟並提及主類,例如:org.apache.nutch.crawl.Crawl和您想要的參數。這不會改變它在local模式下的工作方式。例如:urls -dir myCrawl -threads 10 -depth 5 -topN 1000

如果您打算使用除Crawl.java以外的內容,可以通過查看bin/nutch腳本來了解要使用的主類。

+0

對不起,我沒有解決你是第二個問題上面。我希望在EMR上使用1.x,這樣我就可以將抓取的數據庫移回到S3,如果您在另一個盒子上使用了NoSQL設置來使用2.x,則可能會成爲性能瓶頸。 – chethan