1
我想知道Pig中的PigStorage如何將數據存儲到S3?它是否將輸出保存到HDFS然後複製它們?或者將每個reducer輸出保存到每個reducer的本地目錄,然後將它們複製到S3?我猜這不能流,因爲S3只支持放文件或目錄?PigStorage如何適用於S3?
我想知道Pig中的PigStorage如何將數據存儲到S3?它是否將輸出保存到HDFS然後複製它們?或者將每個reducer輸出保存到每個reducer的本地目錄,然後將它們複製到S3?我猜這不能流,因爲S3只支持放文件或目錄?PigStorage如何適用於S3?
我的理解是,每個reducer在本地寫輸出,然後將輸出複製到S3。
正如您已經正確指出的那樣 - 由於S3不支持流式處理,因此reducer只能在處理完成後複製輸出。