從命令行使用nvprof --metrics測量帶寬的正確選項是什麼?我正在使用flop_dp_efficiency獲得峯值FLOPS的百分比,但手冊中的帶寬測量似乎有很多選項,我並不真正瞭解我正在測量的內容。例如dram_read,dram_write,gld_read,gld_write對我來說都是一樣的。另外,我應該通過假設兩者同時發生來報告bandwdith作爲讀寫吞吐量的總和嗎?帶寬的nvprof選項
編輯:
根據與圖中的出色答卷,這將是從設備內存將內核的帶寬?我正在考慮從內核到設備內存的路徑上使用最小帶寬(讀取+寫入),這可能會導致L2緩存。
我試圖通過測量FLOPS和帶寬來確定內核是否受計算或內存限制。
http://docs.nvidia.com/cuda/profiler-users-guide/index.html#metrics-reference – kangshiyin
爲什麼單獨報告全局內存(gld)和dram(設備內存)的帶寬? – user1382302
您可以將這些名稱與GUI版本名稱進行比較。看起來device mem吞吐量是硬件視圖。它不包括緩存命中,但包括ECC位。全局mem吞吐量是軟件視圖。這與計算代碼中的吞吐量相同。 – kangshiyin