0

我正在嘗試將CfnCluster 1.2.1用於GPU計算,並且使用基於Ubuntu 14.04 CfnCluster AMI的自定義AMI。Ubuntu CfnCluster中的計算節點未執行的任務圖像

儘管當我使用主服務器中的qsub向Oracle Grid Engine提交新的測試任務時,所有內容都在CloudFormation控制檯中正確創建,但它永遠不會根據qstat從隊列中執行。它始終處於「qw」狀態,永遠不會進入狀態「r」。

它似乎與亞馬遜Linux AMI(使用用戶ec2用戶,而不是Ubuntu)和完全相同的配置正常工作。另外,主實例將作爲度量標準向羣集宣告剩餘任務的數量,結果會自動縮放新的計算實例。

CfnCluster或Oracle Grid Engine提供了哪些機制來進一步調試?我看了看日誌文件,但沒有發現任何相關的東西。這種行爲的原因是什麼?

謝謝

迭戈

+0

您能否告訴您是否有工作節點可以完成任務?如果您有命令行訪問權限,請運行「qhost」進行驗證。 –

+0

我有工作節點準備好任務,但不知何故所有的領域都是空的。我用qhost命令得到這個輸出:$ qhost HOSTNAME ARCH NCPU NSOC NCOR NTHR LOAD MEMTOT MEM SWAPTO SWAPUS -------------------------- --------------------------------------------------全球 - - - - - - - - - - ip-10-0-0-47 - - - - - - - - - - - –

回答

0

我想我找到了解決方案。這似乎是同樣的問題,通過添加以下行至CfnCluster配置文件中https://github.com/awslabs/cfncluster/issues/86#issuecomment-196966385

我固定它描述的:

base_os = ubuntu1404 

如果指定了custom_ami但沒有base_os指定,它默認使用Amazon Linux,它使用不同的方法來配置SGE。如果base_os和custom_ami os不同,則CfnCluster執行SGE配置時可能會出現問題。

1

類似https://stackoverflow.com/a/37324418/704265

從你qhost輸出,它看起來像你的機器 「IP-10-0-0-47」 在SGE正確配置。但是,在「ip-10-0-0-47」上,sge_execd未運行或未正確配置。如果是,qhost會報告「ip-10-0-0-47」的統計數據。