1
我正在使用luigi作爲hadoop作業管道。我閱讀了示例和文檔,但在將作業推送到hadoop服務器之前找不到如何調試我的腳本?當使用luigi構建hadoop作業管道時,如何調試我的任務?
更具體一些,我需要處理一大組數據,而且運行時間很長,我更喜歡在小測試數據集中測試作業,而不是在真實數據集中運行作業。
我正在使用luigi作爲hadoop作業管道。我閱讀了示例和文檔,但在將作業推送到hadoop服務器之前找不到如何調試我的腳本?當使用luigi構建hadoop作業管道時,如何調試我的任務?
更具體一些,我需要處理一大組數據,而且運行時間很長,我更喜歡在小測試數據集中測試作業,而不是在真實數據集中運行作業。
就我所知,這不是一件微不足道的事情,因爲你想調試的是實際的Hadoop集成。也許有辦法模擬或模擬一個hadoop系統......或者只是在你的機器上安裝一個最小的hadoop?
我們爲集羣任務做類似的事情。我們通過一種方便的方法執行命令,通過切換參數值,我們可以在本地或通過HPC系統在運行命令之間切換。你可以看到這裏的代碼,如果你有興趣: https://github.com/samuell/sciluigi/blob/d403b1d04779fcb9d4d949cd2e554a892c86a67d/sciluigi/slurm.py#L99-L113
好工作!感謝分享!我們使用luigi來部署hadoop流媒體作業。在我們轉換到luigi之前,我們在本地測試我們的腳本使用系統管道將映射器的輸出傳遞給reducer。我認爲類似的方法比我們在幾個小時內運行作業要好,然後發現存在錯誤。 – Yang