1
我一直在tensorflow教程中運行CIFAR 10模型來跨多個GPU進行訓練。跨多GPU縮放性能
圖形芯片:NVIDIA 8 * M40
配置: Tensorflow 0.8.0 ,CUDA 7.5,cuDNN 4
的訓練表現的結果並不比可擴展性預期。圖的模式看起來像阿姆達爾定律。
the chart of scaling performance across multi GPUs
它是正常的嗎?如果是這樣,你認爲這是什麼主要原因?
你的GPU利用率是什麼樣的? –
恕我直言,這是不正常的,「每秒示例」應該線性縮放,如果你沒有瓶頸。 –
Tensorflow培訓: 2016-04-22 12:45:19.902857:步驟360,損失= 4.08(3166.4實例/秒; 0.040秒/批次) CPU利用率: top - 12:47:45 up 6 days, 20:22,2個用戶,平均負載:31.18,17.92,7.67 任務:總計346個,運行1個,345個睡眠,0個停止,0個殭屍 %Cpu:55.3 us,23.3 sy,0.0 ni,21.1 id ,0.0 wa,0.0 hi,0.2 si,0.0 st KiB Mem:總共65679412,使用46795768,使用7339948,使用11543696 buff /高速緩存 KiB Swap:0 total,0 free,0 used。 55707412 Avail Mem –