跨多GPU縮放性能

我一直在tensorflow教程中運行CIFAR 10模型來跨多個GPU進行訓練。跨多GPU縮放性能

來源： https://github.com/tensorflow/tensorflow/blob/r0.8/tensorflow/models/image/cifar10/cifar10_multi_gpu_train.py

圖形芯片：NVIDIA 8 * M40

配置： Tensorflow 0.8.0 ，CUDA 7.5，cuDNN 4

的訓練表現的結果並不比可擴展性預期。圖的模式看起來像阿姆達爾定律。

the chart of scaling performance across multi GPUs

它是正常的嗎？如果是這樣，你認爲這是什麼主要原因？

來源

2016-04-22 A. J. Polk

你的GPU利用率是什麼樣的？ –

恕我直言，這是不正常的，「每秒示例」應該線性縮放，如果你沒有瓶頸。 –

Tensorflow培訓： 2016-04-22 12：45：19.902857：步驟360，損失= 4.08（3166.4實例/秒; 0.040秒/批次） CPU利用率： top - 12:47:45 up 6 days， 20:22，2個用戶，平均負載：31.18，17.92，7.67 任務：總計346個，運行1個，345個睡眠，0個停止，0個殭屍％Cpu：55.3 us，23.3 sy，0.0 ni，21.1 id ，0.0 wa，0.0 hi，0.2 si，0.0 st KiB Mem：總共65679412，使用46795768，使用7339948，使用11543696 buff /高速緩存 KiB Swap：0 total，0 free，0 used。 55707412 Avail Mem –

嘗試儘可能提高GPU利用率（> 80％）。很可能來自磁盤的數據傳輸速度不夠快，因此大多數時候GPU都處於閒置狀態。

來源

2017-10-24 11:49:27 user6715080

跨多GPU縮放性能

回答

相關問題