2014-03-27 142 views
0

我試圖在AWS上運行mapreduce代碼示例。這是代碼示例的鏈接https://github.com/ScaleUnlimited/wikipedia-ngrams如何在AWS中爲hadoop Mapreduce作業創建作業jar

但是,我對這些東西來說很新穎。實際上,他們在自述文件中寫入了我應該從代碼示例構建作業jar文件。但是,仍然沒有得到我如何建立一個工作瓶。

我也在下面這些視頻解釋如何在EMR http://www.youtube.com/watch?v=cAZur5maWZE&list=PL080E1DEBCE5388F3

運行工作,但他們也沒告訴如何獲得這一重要的jar文件來啓動這項工作。

任何幫助

回答

0

您可以在eclipse中創建java文件,添加hadoop來構建路徑,然後將它作爲jar導出。有關詳細信息,請參閱本教程中的「6.1創建Jar文件」:Introduction to Amazon Web Services and MapReduce Jobs

有兩種方法可以通過控制檯或CLI啓動作業流程,請檢查上述教程中的6.2,6.3。

1

一樣的普通Java程序(http://hadoop.apache.org/docs/r1.2.1/mapred_tutorial.html):

$ javac -classpath ${HADOOP_HOME}/hadoop-${HADOOP_VERSION}-core.jar -d wordcount_classes WordCount.java 
$ jar -cvf /usr/joe/wordcount.jar -C wordcount_classes/ . 

,或者如果它是一個Maven項目:

$ mvn clean package 

或具體爲https://github.com/ScaleUnlimited/wikipedia-ngrams(見README ):

$ ant clean job 
+0

好吧,他們說我應該在我的本地機器上運行它。但它沒有奏效。是因爲窗戶嗎? – Dhoha

+0

是的,你應該在本地機器上構建jar文件,然後將其上傳到S3。 Windows不是問題,因爲java是跨平臺的,但可能需要正確設置開發環境。 –

相關問題