2016-04-22 50 views
1

我一直在tensorflow教程中運行CIFAR 10模型來跨多個GPU進行訓練。跨多GPU縮放性能

來源: https://github.com/tensorflow/tensorflow/blob/r0.8/tensorflow/models/image/cifar10/cifar10_multi_gpu_train.py

圖形芯片:NVIDIA 8 * M40

配置: Tensorflow 0.8.0 ,CUDA 7.5,cuDNN 4

的訓練表現的結果並不比可擴展性預期。圖的模式看起來像阿姆達爾定律。

the chart of scaling performance across multi GPUs

它是正常的嗎?如果是這樣,你認爲這是什麼主要原因?

+0

你的GPU利用率是什麼樣的? –

+0

恕我直言,這是不正常的,「每秒示例」應該線性縮放,如果你沒有瓶頸。 –

+0

Tensorflow培訓: 2016-04-22 12:45:19.902857:步驟360,損失= 4.08(3166.4實例/秒; 0.040秒/批次) CPU利用率: top - 12:47:45 up 6 days, 20:22,2個用戶,平均負載:31.18,17.92,7.67 任務:總計346個,運行1個,345個睡眠,0個停止,0個殭屍 %Cpu:55.3 us,23.3 sy,0.0 ni,21.1 id ,0.0 wa,0.0 hi,0.2 si,0.0 st KiB Mem:總共65679412,使用46795768,使用7339948,使用11543696 buff /高速緩存 KiB Swap:0 total,0 free,0 used。 55707412 Avail Mem –

回答

0

嘗試儘可能提高GPU利用率(> 80%)。很可能來自磁盤的數據傳輸速度不夠快,因此大多數時候GPU都處於閒置狀態。