我知道訓練DNN當使用多個GPU的一個數據集在一次而不是分裂的數據集,用通常的方式多GPU是拆分數據集,每個分割數據集分配給每個GPU。在tensorflow
然而,有沒有使用多GPU爲不可分割的,整個數據集的計算速度更快的方式?我的意思是當GPU用於訓練網絡時,矩陣乘法在單GPU內並行化。我可以通過一次使用多個GPU來更快地實現矩陣乘法?
例如,我只有一張數據集圖片。由於我沒有多張圖片用於分割並分發到多個GPU,因此我希望利用所有GPU來爲此一個圖片計算做出貢獻。
在Tensorflow中可能嗎?我在互聯網上搜索,但沒有發現,因爲這是非常罕見的情況。