ptx

    0熱度

    1回答

    從NVIDIA website,我沒有發現有關刪除對sm_10的支持的PTX ISA版本的線索。從我的實驗中,我得到了一個說法,那就是PTX ISA 4.1中刪除了對sm_10的支持。或者在其他方面,4.0是支持sm_10的最新PTX ISA版本。它是否正確?

    0熱度

    1回答

    我正在擺弄一些SASS,同時看着使用%laneid的方式。這浪費了別人的生命一分鐘(約抱歉 - 你知道你是誰)失態後,我現在有以下幾點: CUDA代碼: __forceinline__ __device__ unsigned lane_id() { unsigned ret; asm volatile ("mov.u32 %0, %laneid;" : "=r"(ret));

    1熱度

    1回答

    我嘗試使用CUDA SDK中的ptxjit樣本作爲儀器與GPU設備的交互基礎。 我已經成功地編譯了檢測代碼,並控制設備加載並執行具有CUDA功能2.0的Geforce GT440的PTX模塊。 在使用具有CUDA功能5.0的Geforce 830M(使用大黃蜂控制獨立GPU的筆記本電腦)系統上編譯相同的工具代碼時,代碼會編譯但會提供209(CUDA_ERROR_NO_BINARY_FOR_GPU)

    0熱度

    1回答

    當我們在一般的C/C++ CUDA代碼,例如編寫內聯PTX彙編: __device__ __inline__ uint32_t bfind(uint32_t val) { uint32_t ret; asm ("bfind.u32 %0, %1;" : "=r"(ret): "r"(val)); return ret; } 我們可以asm後添加volatile

    3熱度

    1回答

    隨着gcc 7.1的發佈,我們現在可以配置gcc for openmp 4.5,卸載到Nvidia PTX GPGPU。這就是他們在發佈說明(大約)中所說的。 所以我的問題是,是否有任何特殊的標誌來激活此配置時,編譯openmp 4.5目標nvidia設備?

    1熱度

    1回答

    在CUDA PTX,有持有線程的經指數特殊寄存器:%warpid。現在,規範說: 注意%warpid是揮發性的,讀取時的時刻返回一個線程 的位置,但其價值可能會執行, 例如在發生變化,由於以下搶佔線程的重新安排。 嗯,什麼位置是什麼?它不應該是塊內的位置,例如對於一維網格%tid.x/warpSize?它是否是SM中的一個槽口(例如warp調度程序或某個內部隊列)?我很困惑。 動機:我想省去計算%

    1熱度

    1回答

    我正在通過C++ filt過濾我編譯的PTX,但它只是將一些名稱/標籤去掉並保持原樣。例如,這樣的: func (.param .b32 func_retval0) _ZN41_INTERNAL_19_gather_bits_cpp1_ii_56538e7c6__shflEiii( .param .b32 _ZN41_INTERNAL_19_gather_bits_cpp1_ii_565

    0熱度

    1回答

    我寫了一個非常簡單的OpenCL代碼,並試圖在Tesla K40m GPU上執行它並測量GFlops。這是我寫的代碼:我已經部署在我的GPU與[1048576] global_work_size和[128]的local_work_size這個內核 __kernel void test(__global float *GIn, __global float *GOut, int M, int N,

    -2熱度

    1回答

    我正在查看PTX ISA specification(對於PTX v2)中的Store instruction caching modes table。它提供了涉及三個緩存模式的詳細: .wb:緩存回寫所有連貫水平 .cg:緩存在全球水平(緩存L2,不是L1) .cs:緩存流式傳輸,可能會被訪問​​一次 .wt:緩存寫通(到系統存儲器) 的解釋性文本是對我來說有點混亂。 對於正在寫入的行(與其他需

    0熱度

    1回答

    我最近在加快並行代碼,需要一些幫助決定如何MATLAB代碼轉換成CUDA代碼,希望購買了P100 GPU(我搬到從普通gpuarrays在MATLAB遠) 。我已經用.ptx內核和MEX -files進行了實驗,並且遇到了一些障礙。 並行碼具有元素指數,元素乘法,FFT和IFFT調用。它還包含複數。 .ptx是從CUDA內核還是MEX CUDA文件編譯的文件更易於使用,哪些將允許我執行必要的FFT