ptx

直列PTX代碼編寫Nvidia的內聯PTX大會文件中，使用內聯彙編的語法是： asm("temp_string" : "constraint"(output) : "constraint"(input)); 這裏有兩個例子： asm("vadd.s32.s32.s32 %0, %1.h0, %2.h0;" : "=r"(v) : "r"(a), "r"(b)); asm("vadd.u32.u32

2熱度

1回答

共享內存中的PTX可變長度緩衝區

我正在嘗試在PTX中使用共享內存來減少線程塊內的全局縮減內核（就像所有的CUDA C示例一樣）。在CUDA C上具有限定在共享存儲器中的可變長度數組與 extern __shared__ float sdata[]; 我怎樣才能在PTX等效的可能性？似乎什麼不恰當是一個固定長度的陣列等 .shared .f32 sdata[ LENGTH ]; 由於我想內核是可重複使用不同的輸入陣列的長

0熱度

1回答

PTX數組作爲不工作

的PTX手動操作數（2.3版本）（http://developer.download.nvidia.com/compute/DevZone/docs/html/C/doc/ptx_isa_2.3.pdf）6.4.2規定：數組元素可以使用顯式計算的字節地址來訪問，或通過使用索引到陣列方括號表示法。方括號內的表達式是一個常數整數，一個寄存器變量或一個簡單的「具有常數偏移的寄存器」表達式，其中

12熱度

3回答

CUDA僅對一個變量禁用L1緩存

CUDA 2.0設備上是否有任何方法來禁用L1緩存僅適用於一個特定變量？我知道在編譯時可以禁用L1高速緩存，爲所有內存操作添加標記-Xptxas -dlcm=cg至nvcc。但是，我想只在特定全局變量的內存讀取時禁用高速緩存，以便所有剩餘的內存讀取通過L1高速緩存。基於我在網上完成的搜索，可能的解決方案是通過PTX彙編代碼。

0熱度

1回答

編譯時的CUDA設備屬性和計算能力

讓我們假設我有一個代碼，讓用戶通過threads_per_block來調用內核。然後我想檢查一下，如果輸入有效（例如< = 512，計算能力CC < 2.0和1024（對於CC> = 2.0））。現在我想知道如果我在使用CC2.0的計算機上顯示圖形卡時使用nvcc -arch=sm_13編寫代碼時，如果用戶通過threads_per_block == 1024，會發生什麼情況？是這樣的：有效的