關於HDInsight作業方法的幾個問題。運行HDInsight作業howto
1)如何安排HDInsight工作?有沒有現成的解決方案?例如,如果我的系統將不斷獲取大量收集的我們需要運行map/reduce作業的新輸入文件,那麼實施正在進行的處理的推薦方式是什麼?
2)從價格的角度來看,建議在沒有作業運行的時候刪除HDInsight羣集。據我所知,如果我們決定每天運行這項工作,就沒有辦法讓這個過程自動化了。任何建議嗎?
3)有沒有辦法確保相同的文件不會被多次處理?你如何解決這個問題?
4)我可能會誤解,但它看起來像每個hdinsight作業需要一個新的輸出存儲文件夾來存儲reducer結果。合併這些結果的最佳做法是什麼,以便報告始終適用於整個數據集?