0
我有一個用例可以同時運行多個作業。所有作業的輸出將不得不與HDFS中的公共主文件(包含鍵值對)合併,這些文件沒有重複。我不確定如何避免在這種情況下可能出現的競爭狀況。作爲例子,作業1和作業2同時向主文件寫入相同的值,導致重複。感謝您的幫助。同步hadoop中的多個地圖減少作業
我有一個用例可以同時運行多個作業。所有作業的輸出將不得不與HDFS中的公共主文件(包含鍵值對)合併,這些文件沒有重複。我不確定如何避免在這種情況下可能出現的競爭狀況。作爲例子,作業1和作業2同時向主文件寫入相同的值,導致重複。感謝您的幫助。同步hadoop中的多個地圖減少作業
Apache Hadoop不支持並行寫入同一個文件。這裏是reference。
HDFS中的文件是一次寫入的,並且在任何時候都嚴格限定一個寫入者。
因此,多個地圖/作業無法同時寫入同一個文件。必須編寫另一個作業/ shell或任何其他程序來合併多個作業的輸出。
Praveen,我想使用追加功能。讓我知道你的想法。 –
如何將追加工作與多個作家,它不會。 –