2017-10-15 75 views
0

我集羣試圖啓動任務通過扭矩PBS與命令爲什麼Torque qsub不會創建輸出文件?

qsub -o a.txt a.sh 

文件a.sh包含一個字符串:

hostname 

命令的qsub後,我做qstat命令的,這給接下來的輸出:

Job ID     Name    User   Time Use S Queue 
------------------------- ---------------- --------------- -------- - ----- 
302937.voms    a.sh    user   00:00:00 E long 

5秒後命令qstat返回空輸出(無隊列中的作業)。 命令

qsub --version 

給輸出:版本:2.5.13

命令

which qsub 

輸出:在/ usr/bin中/的qsub

的問題是,該文件a.txt中(來自命令qsub -o a.txt a.sh)未被創建!在終端只返回作業ID,沒有任何錯誤。命令

qsub a.sh 

具有相同的行爲。我如何解決它? qsub日誌文件的錯誤在哪裏?

如果我使用命令

qsub -l nodes=node36:ppn=1 -o a.txt a.sh 

然後輸出文件,我可以找到文件夾

/var/spool/pbs/undelivered 

在node36(上SSH登錄後)。 輸出文件包含字符串「node36」,錯誤文件爲空。 爲什麼我的文件「無法傳送」?

回答

1

輸出日誌和錯誤日誌文件保存在假脫機目錄中的執行節點上,並在作業完成後複製回頭節點。假脫機目錄的位置可能會有所不同。但是您應該從已分配作業的節點列表中的第一個節點上查找 下的 /var/torque/spool

有多種原因可能導致轉矩輸出文件失敗。

  1. 用戶提交作業可能不存在於節點上,或者它們的主目錄可能不可訪問,或者集羣節點之間存在用戶ID不匹配。
  2. Torque正在使用ssh將文件複製到頭節點,但跨羣集的用戶對SSH進行的無密碼公鑰驗證並未在所有節點上一致地設置。
  3. 節點在作業執行期間失敗。

此列表並不完整。 Stack Overflow已經在這裏找到了一些處理這種故障的問題。嘗試檢查以上任何情況是否適用於您的案例。

+0

嗨!謝謝!我編輯我的問題 - 保存在節點上/ var/spool/pbs/undelivered文件夾中的文件。由於ssh鍵的問題?我如何解決它? – r1d1

+1

@ r1d1如果你有一個集羣管理員要與之交談,你應該確實這樣做。所以我認爲這不是選項。如果問題歸因於ssh密鑰,[以下鏈接](http://www.drugdesign.gr/blog/how-to-setup-passwordless-ssh-access-between-nodes-in-a-cluster)有一個配方,應該讓你在那裏。 –

相關問題