當使用luigi構建hadoop作業管道時，如何調試我的任務？

我正在使用luigi作爲hadoop作業管道。我閱讀了示例和文檔，但在將作業推送到hadoop服務器之前找不到如何調試我的腳本？當使用luigi構建hadoop作業管道時，如何調試我的任務？

更具體一些，我需要處理一大組數據，而且運行時間很長，我更喜歡在小測試數據集中測試作業，而不是在真實數據集中運行作業。

2015-09-01 Yang

就我所知，這不是一件微不足道的事情，因爲你想調試的是實際的Hadoop集成。也許有辦法模擬或模擬一個hadoop系統......或者只是在你的機器上安裝一個最小的hadoop？

我們爲集羣任務做類似的事情。我們通過一種方便的方法執行命令，通過切換參數值，我們可以在本地或通過HPC系統在運行命令之間切換。你可以看到這裏的代碼，如果你有興趣： https://github.com/samuell/sciluigi/blob/d403b1d04779fcb9d4d949cd2e554a892c86a67d/sciluigi/slurm.py#L99-L113

2015-09-01 16:16:03

好工作！感謝分享！我們使用luigi來部署hadoop流媒體作業。在我們轉換到luigi之前，我們在本地測試我們的腳本使用系統管道將映射器的輸出傳遞給reducer。我認爲類似的方法比我們在幾個小時內運行作業要好，然後發現存在錯誤。 – Yang

回答