當我運行一個簡單的DistCp使用命令:Hadoop distcp - 可以讓每個文件保持一致(保留文件大小)?
hadoop distcp s3://src-bucket/src-dir s3://dest-bucket/dest-dir
我得到的大小略有出入(以字節爲單位)的src-dir
和dest-dir的
>aws s3 --summarize s3://dest-bucket/dest-dir/
...
Total Objects: 12290
Total Size: 64911104881181
>aws s3 --summarize s3://dest-bucket/dest-dir/
...
Total Objects: 12290
Total Size: 64901040284124
我的問題是:
- 有什麼可以引入這種差異?我的dest目錄的內容是否與原始內容相同?
- 最重要的是 - 是否有參數可以設置,以確保每個文件看起來與他們的src計數器部分完全相同(即相同的文件大小)?
Chris,pl0u使用的是AWS s3工具,所以s3://是他們必須玩的。他們需要遷移到Hadoop庫以使用distcp和我們的代碼 –
良好的捕獲。謝謝,@SteveLoughran。 –
嗨@ChrisNauroth謝謝你的洞察力。 – pl0u