2016-12-15 218 views
1

我們用下面的硬件配置使用tensorflow運行多個GPU訓練:培訓tensorflow崩潰計算機

ubuntu 16.04 
cuda 8 
cudnn 5.1 
8 titan X pascal 
220GB of memory 

培訓代碼是基於苗條發表在tensorflow /型號的github倉庫。

如果我們不使用所有GPU(最多4個,測試過),我們就可以運行訓練代碼。但是,一旦我們使用全部8個GPU,電腦就會崩潰。

這可能是什麼原因?

+0

你想過它是如何崩潰的更多信息,以及如何重現該問題? –

+0

從現在不知道。由於我們沒有任何日誌。每次我們需要重新啓動計算機。我們懷疑有內存問題。 – jrabary

回答