2016-08-24 18 views
10

我在使用nvidia GTX1080 gpu(8GB)在tensorflow上運行Inception model,當我設置batch_size = 16和image_size = 400時,那麼在啓動程序之後,我的ubuntu14。 04會自動重啓。當tensorflow模型太大時系統自動重啓

+0

您可能想要添加batch_size和image_size的值,這些值似乎會導致問題得到相關答案。 – fvu

+0

什麼是系統配置? – titus

+0

tensorflow應該會拋出內存不足錯誤,而不是重新啓動系統。 – suiyuan2009

回答

1

確保它不是電源設備問題。我在開發機器上觀察到奇怪的偶然重新啓動。當我增加輸入的大小(批量大小,更大的NN)時,重新啓動的速度也在增加。原來是一個PSU問題。快速檢查是限制GPU功耗,看看這種行爲是否會消失。例如,你可以限制權力,用這個命令約150瓦特(你需要一個sudo的權利):

sudo nvidia-smi -pl 150 
0

我跟蹤這個問題到出現故障的電源。根據規格它有足夠的容量,並且通過運行「nvidia-smi-pl 150」來限制GPU功耗根本沒有任何幫助。可能它無法處理耗電量爆發。
無論如何,當我將電源從「Corsair CX750 Builder ATX 80 PLUS」改爲「Cooler Master V1000」後,問題就消失了。 在TensorFlow GitHub issue查看我的調查的詳細信息。

0

如果您的PSU具有足夠的功率(WATTS),那麼更改GPU功率設置將會起作用。 我將GPU的(TITANX)功率限制爲最大。 200瓦使用,

sudo nvidia-smi -pl 200 

注:每個GPU都有功率限制,例如, TITANX的功率限制在125W和300W之間。所以請確保在這些限制之間給予價值。

相關問題