培訓tensorflow崩潰計算機

我們用下面的硬件配置使用tensorflow運行多個GPU訓練：培訓tensorflow崩潰計算機

ubuntu 16.04 
cuda 8 
cudnn 5.1 
8 titan X pascal 
220GB of memory

培訓代碼是基於苗條發表在tensorflow /型號的github倉庫。

如果我們不使用所有GPU（最多4個，測試過），我們就可以運行訓練代碼。但是，一旦我們使用全部8個GPU，電腦就會崩潰。

這可能是什麼原因？

2016-12-15 jrabary

你想過它是如何崩潰的更多信息，以及如何重現該問題？ –

從現在不知道。由於我們沒有任何日誌。每次我們需要重新啓動計算機。我們懷疑有內存問題。 – jrabary

我有一個類似的問題，雖然對我來說，一旦我使用多個GPU就會崩潰。對我們來說，修復被降級Linux內核2.6.32到

2017-02-05 02:27:36

奇怪的是，我們必須更改內核版本才能使其工作。也許，他們解決了最新版本的問題。 – jrabary

回答