我正在Hadoop中編寫一個Java MapReduce程序,並且每個Reducer都需要訪問一個靜態XML文件(包含將規則應用於值列表的一些業務邏輯)。我決定將這個文件存儲在分佈式緩存中,然後利用分佈式緩存API在每個縮減器中訪問它(序列化它)。我還沒有實現,但是在HDFS /分佈式模式下使用這個功能時,API看起來很簡單。但是,爲了測試目的,是否可以將其用於僞分佈式獨立模式?它將如何工作?我可以在獨立模式下使用Hadoop的分佈式緩存嗎?
另外,在每個reducer中序列化文件是一個壞主意嗎?對於向其他分發「全局靜態數據」的方法,我願意提供建議。
謝謝!
看到這個 - http://stackoverflow.com/questions/3210222/distributed-cache。是分佈式緩存旨在爲所有任務提供一些數據 –