2012-04-30 56 views
0

我能夠運行一個本地映射器和使用ruby和輸入文件構建的reducer。如何使用hadoop streaming和ruby mappers/redurs設置分佈式map-reduce作業?

雖然我不清楚分佈式系統的行爲。

對於生產系統,我在兩臺機器上設置了HDFS。我知道如果我在HDFS上存儲一個大文件,它將在兩臺機器上都有一些塊允許並行化。我是否也需要在HDFS上存儲實際的映射器和reducer文件(本例中爲ruby文件)?

此外,我將如何着手實際運行流式作業,以便在兩個系統上以並行方式運行?

回答

1

如果您要使用以ruby(或Java以外的任何其他語言)編寫的mapper/reducers,則必須使用hadoop-streaming。將作業發送到羣集時,Hadoop流式傳輸可以選擇打包映射器/縮減器文件。以下鏈接應該有你正在尋找的。

http://hadoop.apache.org/common/docs/r0.15.2/streaming.html

相關問題