我將使用大量的結構化文件的如下:火花劃分/集羣執行
/day/hour-min.txt.gz
以總共14天。我將使用一個由90個節點/工人組成的羣集。
我正在閱讀與wholeTextFiles()
的所有內容,因爲它是允許我正確分割數據的唯一方法。所有的計算都將在每分鐘的基礎上完成(所以基本上每個文件),並在最後減少一些步驟。大約有20,000個文件;如何有效地對其進行分區?我是否讓火花決定?
理想情況下,我認爲每個節點應該接收整個文件;默認情況下,火花會這樣做嗎?我可以執行它嗎?怎麼樣?
你的輸入文件在哪裏? HDFS/S3/..? –
HDFS <加長評論> – Dimebag