我們用下面的硬件配置使用tensorflow運行多個GPU訓練:培訓tensorflow崩潰計算機
ubuntu 16.04
cuda 8
cudnn 5.1
8 titan X pascal
220GB of memory
培訓代碼是基於苗條發表在tensorflow /型號的github倉庫。
如果我們不使用所有GPU(最多4個,測試過),我們就可以運行訓練代碼。但是,一旦我們使用全部8個GPU,電腦就會崩潰。
這可能是什麼原因?
我們用下面的硬件配置使用tensorflow運行多個GPU訓練:培訓tensorflow崩潰計算機
ubuntu 16.04
cuda 8
cudnn 5.1
8 titan X pascal
220GB of memory
培訓代碼是基於苗條發表在tensorflow /型號的github倉庫。
如果我們不使用所有GPU(最多4個,測試過),我們就可以運行訓練代碼。但是,一旦我們使用全部8個GPU,電腦就會崩潰。
這可能是什麼原因?
我有一個類似的問題,雖然對我來說,一旦我使用多個GPU就會崩潰。對我們來說,修復被降級Linux內核2.6.32到
更多細節上我們的問題就在這裏:https://groups.google.com/a/tensorflow.org/forum/#!topic/discuss/UjB7uP7_MMU
奇怪的是,我們必須更改內核版本才能使其工作。也許,他們解決了最新版本的問題。 – jrabary
你想過它是如何崩潰的更多信息,以及如何重現該問題? –
從現在不知道。由於我們沒有任何日誌。每次我們需要重新啓動計算機。我們懷疑有內存問題。 – jrabary