我想使用AWS EMR查詢我要寫入S3的大型日誌文件。我可以用我喜歡的任何方式設計文件。數據創建速度爲10K條目/分鐘。Map Reduce - 如何規劃數據文件
日誌由幾十個數據點,我想收集數據(年)很長一段時間來比較趨勢等
什麼是最好的做法,創建這樣的文件,這將是存儲在S3上並由AWS EMR羣集查詢?
什麼是最佳文件大小?我應該在小時基礎上創建單獨的文件嗎?
命名文件的最佳方式是什麼?
我應該把它們放在每日/每小時桶或全部在同一個桶裏嗎?
什麼是處理事情的最佳方式,例如在一段時間後添加一些數據或更改我使用的數據結構?
我是否應該壓縮東西,例如將域名從網址中排除或保留儘可能多的數據?
有沒有像分區的概念(數據是基於100個網站,所以我可以使用站點ID)。我必須能夠一起查詢所有數據,或者通過分區查詢。
謝謝!