Q

如何使用hadoop streaming和ruby mappers/redurs設置分佈式map-reduce作業？

2012-04-30 56 views 0 likes

0

我能夠運行一個本地映射器和使用ruby和輸入文件構建的reducer。如何使用hadoop streaming和ruby mappers/redurs設置分佈式map-reduce作業？

雖然我不清楚分佈式系統的行爲。

對於生產系統，我在兩臺機器上設置了HDFS。我知道如果我在HDFS上存儲一個大文件，它將在兩臺機器上都有一些塊允許並行化。我是否也需要在HDFS上存儲實際的映射器和reducer文件（本例中爲ruby文件）？

此外，我將如何着手實際運行流式作業，以便在兩個系統上以並行方式運行？

2012-04-30 Nikhil

A

回答

1

如果您要使用以ruby（或Java以外的任何其他語言）編寫的mapper/reducers，則必須使用hadoop-streaming。將作業發送到羣集時，Hadoop流式傳輸可以選擇打包映射器/縮減器文件。以下鏈接應該有你正在尋找的。

http://hadoop.apache.org/common/docs/r0.15.2/streaming.html

2012-05-01 03:45:32 tkang

相關問題