ptx

    7熱度

    1回答

    ...在PTX manual中剛剛提到。沒有暗示他們有什麼好處或如何使用它們。 有誰知道更多?我只是錯過了一個共同的概念?

    10熱度

    3回答

    有誰知道如何用新的LLVM後端將C/C++代碼註釋爲PTX組裝器? 使用CUDA 4.0或更早版本可以輕鬆獲得它,但在將CUDA工具包升級到4.2版後,NVCC會拒絕所有標誌。

    6熱度

    1回答

    你是否推薦閱讀你的內核的PTX代碼,以便進一步優化你的內核? 舉一個例子:我讀過,可以從PTX代碼中找到自動循環展開的原理。如果情況並非如此,則必須在內核代碼中手動展開循環。 PTX代碼還有其他用例嗎? 你看看你的PTX代碼嗎? 從哪裏可以找到如何讀取CUDA爲我的內核生成的PTX代碼?

    1熱度

    1回答

    直列PTX代碼編寫Nvidia的內聯PTX大會文件中,使用內聯彙編的語法是: asm("temp_string" : "constraint"(output) : "constraint"(input)); 這裏有兩個例子: asm("vadd.s32.s32.s32 %0, %1.h0, %2.h0;" : "=r"(v) : "r"(a), "r"(b)); asm("vadd.u32.u32

    2熱度

    1回答

    我正在嘗試在PTX中使用共享內存來減少線程塊內的全局縮減內核(就像所有的CUDA C示例一樣)。在CUDA C上具有限定在共享存儲器中的可變長度數組與 extern __shared__ float sdata[]; 我怎樣才能在PTX等效的可能性? 似乎什麼不恰當是一個固定長度的陣列等 .shared .f32 sdata[ LENGTH ]; 由於我想內核是可重複使用不同的輸入陣列的長

    0熱度

    1回答

    的PTX手動操作數(2.3版本)(http://developer.download.nvidia.com/compute/DevZone/docs/html/C/doc/ptx_isa_2.3.pdf)6.4.2規定: 數組元素可以使用顯式計算的字節 地址來訪問,或通過使用索引到陣列方括號表示法。 方括號內的表達式是一個常數整數,一個 寄存器變量或一個簡單的「具有常數偏移的寄存器」 表達式,其中

    12熱度

    3回答

    CUDA 2.0設備上是否有任何方法來禁用L1緩存僅適用於一個特定變量? 我知道在編譯時可以禁用L1高速緩存,爲所有內存操作添加標記-Xptxas -dlcm=cg至nvcc。 但是,我想只在特定全局變量的內存讀取時禁用高速緩存,以便所有剩餘的內存讀取通過L1高速緩存。 基於我在網上完成的搜索,可能的解決方案是通過PTX彙編代碼。

    0熱度

    1回答

    讓我們假設我有一個代碼,讓用戶通過threads_per_block來調用內核。然後我想檢查一下,如果輸入有效(例如< = 512,計算能力CC < 2.0和1024(對於CC> = 2.0))。 現在我想知道如果我在使用CC2.0的計算機上顯示圖形卡時使用nvcc -arch=sm_13編寫代碼時,如果用戶通過threads_per_block == 1024,會發生什麼情況?是這樣的: 有效的