2013-02-20 37 views
1

我正在使用nvprof分析cuda內核(CUDA 5.0)。 我嘗試檢查未聚內存負載:cuda profiler l1_global_load_hit和l1_global_load_miss返回零

nvprof --events l1_global_load_hit myapplication 

返回:

1   0   0   0 l1_global_load_hit 

和:

nvprof --events l1_global_load_miss myapplication 

返回

1   0   0   0 l1_global_load_miss 

。有沒有人有一個想法,爲什麼我沒有得到任何負載?我的內核中肯定有負載。

nvprof --events gld_request myapplication 

回報:

    1515884425251588442525158844252 gld_request 

感謝您的幫助!

+0

您的內核可能使用非高速緩存全局內存加載嗎?你能告訴我們來源嗎? – RoBiK 2013-02-20 14:21:26

+0

如果您使用'nvvp'並運行「內核內存」分析,您將得到全局內存加載和存儲的百分比利用率的簡單指示,這是直接表示合併的百分比。 – 2013-02-20 14:46:32

+0

@RoBiK我還沒有打開'nvcc'的非高速緩存全局內存加載,有沒有其他方式可以使用,我不知道?對不起,源代碼很大,所以不方便。我使用了nvvp,它顯示了全局加載/存儲利用率的消息不足數據。哪一個可用取決於運行。所以我想強制使用'nvprof' – soriak 2013-02-20 15:43:51

回答

2

對於開普勒微體系結構GPU(計算能力3.x),默認全局內存加載is not cached in L1