2012-11-23 93 views
3

我正在使用Tesla 2075(cc 2.0)和CUDA 4.2。我在非顯示GPU(特斯拉)運行了一個程序,我得到的錯誤:發佈超時並終止

"the launch timed out and was terminated " 

這是錯誤預期非顯示GPU?

而且,如何禁用看門狗定時器?

+0

你在使用什麼操作系統? – talonmies

回答

4

我假設你在Windows上運行。如果是這樣,將特斯拉2075放入TCC mode。這將允許計算訪問,而Windows不會像顯示設備那樣管理它,這將擺脫看門狗定時器。如果您在定位nvidia-smi時遇到問題,只需在Windows上搜索nvidia-smi.exe即可。 (它應該已經安裝了顯示驅動程序。)然後,如果C2075是系統中唯一的CUDA GPU,那麼該命令將如下所示:nvidia-smi -g 0 -dm 1您還可以執行nvidia-smi --help以獲取該工具的命令行幫助。這可能需要在更改此設置後重新啓動系統,以使卡進入TCC模式。

另一方面,如果你在這臺機器上運行linux和X-windows,該解決方案有點不同。一種方法是簡單地禁用X,例如通過將runlevel設置爲3並重新啓動,但還有其他方法可以執行此操作。但是你會在另一個GPU上失去你的X GUI(我認爲你有另一個GPU,因爲你說這是一個非顯示GPU)。爲了在另一個GPU上保留X和GUI,需要修改xorg.conf文件,將X強制到顯示GPU上並從計算(Tesla)GPU中取出。執行此操作的方法會有所不同,但如果您有2個NVIDIA GPU(一個用於顯示),則應使用xorg.conf文件的相關「顯示」部分中的BusID參數將X顯示強制到單個GPU上。另外,應該刪除任何其他「顯示」部分。例如:

BusID 「PCI:34:0:0」 

所述GPU的PCI ID可以從lspci命令或從nvidia-smi –a命令來確定。

您也可以參考NVIDIA驅動程序README fileX configuration options appendix

+0

謝謝,該解決方案有所幫助。我正在使用Ubuntu。這是[nvidia鏈接](http://nvidia.custhelp.com/app/answers/detail/a_id/3029/~/using-cuda-and-x),其中選項4可用於禁用看門狗定時器如果不關心顯示性能,應該使用它。 – rjk

+0

該鏈接中的選項4適用於只有一個GPU(用於顯示和計算任務)的情況。你聽起來像你有2個GPU。如果你有一個不適合顯示任務的2075 GPU,最好是從我的答案中描述的X中移除GPU。 –

+0

我正在使用集羣,每個節點都有2個GPU - 特斯拉C2075和GTX580,但由於機箱設計中存在一些散熱限制,特斯拉卡現在充當主顯示卡。所以我現在唯一的解決方法是禁用看門狗定時器。 – rjk