0
我能夠運行一個本地映射器和使用ruby和輸入文件構建的reducer。如何使用hadoop streaming和ruby mappers/redurs設置分佈式map-reduce作業?
雖然我不清楚分佈式系統的行爲。
對於生產系統,我在兩臺機器上設置了HDFS。我知道如果我在HDFS上存儲一個大文件,它將在兩臺機器上都有一些塊允許並行化。我是否也需要在HDFS上存儲實際的映射器和reducer文件(本例中爲ruby文件)?
此外,我將如何着手實際運行流式作業,以便在兩個系統上以並行方式運行?