我正在嘗試將CfnCluster 1.2.1用於GPU計算,並且使用基於Ubuntu 14.04 CfnCluster AMI的自定義AMI。Ubuntu CfnCluster中的計算節點未執行的任務圖像
儘管當我使用主服務器中的qsub向Oracle Grid Engine提交新的測試任務時,所有內容都在CloudFormation控制檯中正確創建,但它永遠不會根據qstat從隊列中執行。它始終處於「qw」狀態,永遠不會進入狀態「r」。
它似乎與亞馬遜Linux AMI(使用用戶ec2用戶,而不是Ubuntu)和完全相同的配置正常工作。另外,主實例將作爲度量標準向羣集宣告剩餘任務的數量,結果會自動縮放新的計算實例。
CfnCluster或Oracle Grid Engine提供了哪些機制來進一步調試?我看了看日誌文件,但沒有發現任何相關的東西。這種行爲的原因是什麼?
謝謝
迭戈
您能否告訴您是否有工作節點可以完成任務?如果您有命令行訪問權限,請運行「qhost」進行驗證。 –
我有工作節點準備好任務,但不知何故所有的領域都是空的。我用qhost命令得到這個輸出:$ qhost HOSTNAME ARCH NCPU NSOC NCOR NTHR LOAD MEMTOT MEM SWAPTO SWAPUS -------------------------- --------------------------------------------------全球 - - - - - - - - - - ip-10-0-0-47 - - - - - - - - - - - –