在測試一個包含內存錯誤的CUDA時,我的屏幕被凍結了。重新啓動後,我無法再檢測到顯卡。我的代碼可能是物理損壞了卡嗎?CUDA代碼是否會損壞GPU?
這發生在Ubuntu 14.04下。我不知道卡的型號,因爲我無法檢測到它,但我記得它是一個相當新的卡。
在測試一個包含內存錯誤的CUDA時,我的屏幕被凍結了。重新啓動後,我無法再檢測到顯卡。我的代碼可能是物理損壞了卡嗎?CUDA代碼是否會損壞GPU?
這發生在Ubuntu 14.04下。我不知道卡的型號,因爲我無法檢測到它,但我記得它是一個相當新的卡。
感謝所有評論我解決了這個問題。
我將列出我進行的操作。我不確定它們是否都有效果,但最終問題解決了。
首先,我斷開顯卡並重新啓動,沒有它。之後我再次插入卡並重新啓動。我被扔到一個菜單,據說我正在低圖形模式下運行。我打開一個tty
(CTRL + ALT +),並試圖重新安裝使用說明書here Nvidia的驅動程序。
它最初失敗,因爲新的驅動程序正在運行(我認爲這是整個問題的主要罪魁禍首)。
我按照這個link列入了黑名單。
綜上所述創建文件/ etc/modprobe.d/blacklist-nouveau.conf
並添加:
blacklist nouveau
blacklist lbm-nouveau
options nouveau modeset=0
alias nouveau off
alias lbm-nouveau off
然後我重新啓動。到那時我的屏幕開始正常工作,但我無法啓動桌面。我重新安裝了cuda驅動程序(有一些錯誤,但不是致命錯誤)。
然後我重新啓動,我的屏幕再次工作。
回答主要問題:我沒有通過測試CUDA
代碼損壞顯卡。
我對GPU密集型代碼有同樣的問題,罪魁禍首是GPU沒有正確冷卻;在製造商用C2075(幾乎相同的GPU但主動散熱)替換了m2090之後,再也沒有問題了。在此之前,我們更換了MOBO和GPU,但沒有改進。
GPU沒有損壞,它只是進入保護模式,一旦冷卻,它就會再次正常工作。
事件發生在幾個小時前卡仍然死了......我沒有做太多繁重的工作,而是試圖找到一個錯誤。你怎麼看? – eaponte 2014-09-26 15:42:11
是否嘗試將電源從所有電源拔下半分鐘?這些問題通常需要完全重新啓動主機。 – damienfrancois 2014-09-28 09:26:26
你能否嘗試重新安裝驅動程序並重新設置卡BIOS?也許聯繫NVIDIA支持。 – 2014-09-26 16:03:48
拔下插頭,看看主板是否記得該卡。可能是一個BIOS的高壓問題,需要刷新。 – 2014-09-27 20:07:59