2014-01-15 68 views
3

與內存交易的NVIDIA GPU性能計數器相關的子分區,扇區和DRAM單元是什麼?在NVIDIA GPU分析中,什麼是子分區,扇區和單元?

我正在尋找有關如何解釋下面的性能計數器信息:

fb_subp0_read_sectors:讀 請求數:發送到子分區中的所有DRAM單元fb_subp1_read_sectors的 0的讀請求數發送到所有DRAM單元 fb_subp0_write_sectors的子分區1:發送到所有DRAM單元fb_subp1_write_sectors的 子分區0的寫入請求的數量:數 發送到子分區1中的所有DRAM單元 fb0_subp0_read_sectors的讀請求的:r的數量EAD請求發送到DRAM單元0 fb0_subp1_read_sectors的 子分區0:發送到DRAM單元0 fb0_subp0_write_sectors的子分區1 讀取請求數:發送到DRAM單元0 fb0_subp1_write_sectors的 子分區0的寫入請求的數量:發送到DRAM單元1的子分區1的 寫入請求的數量 fb1_subp0_read_sectors:發送到DRAM單元1的子分區0的 子分區0的讀取請求的數量fb1_subp1_read_sectors:發送到DRAM單元1的子分區1的 讀取請求的數量 fb1_subp0_write_sectors:發送到DRAM單元1的子分區0的 的寫入請求的數量fb1_subp1_write_sectors:寫入請求的數量 sen t到DRAM單元1的子分區1

我檢查了NVIDIA Visual Profiler 5.0的文檔,但沒有在那裏找到任何附加信息。

+2

我還沒有找到你提到的性能計數器的任何具體信息。我認爲他們提到的問題是[優化CUDA中的矩陣轉置](http://www.cs.colostate.edu/~cs675/MatrixTranspose.pdf)和論文中討論的分區駐留問題:限制GPU內核中的分區露營,但我相信你已經知道了。 – JackOLantern

回答

4

對於大多數的GPU,您將看到以下四個計數器: fb_subp0_read_sectors:發送給所有的DRAM單元 fb_subp1_read_sectors的子分區0的讀請求數:發送到所有的子分區1的讀取請求數DRAM單元 fb_subp0_write_sectors:發送到所有DRAM單元 fb_subp1_write_sectors的子分區0的寫入請求的數量:發送到子分區1中的所有DRAM單元

該DRAM被劃分成多個單元的讀取請求的數目(分區),每個單元被分成最多2個子分區。在分析fb_subp0_read_sectors或fb_subp0_write_sectors計數器時,您將從所有單位獲得子分區0的聚合值。同樣,當您配置fb_subp1_read_sectors或fb_subp1_write_sectors時,您將從所有DRAM單元獲得子分區1的合計值。 扇區是訪問DRAM存儲器的單位,它是32個字節。

其他計數器僅適用於fermi系列(GeForce GT 440/430/420和GeForce GT 520/530,GeForce GT 610)中的一些gpus。由於某些硬件限制,它們被引入。