ptxas

    2熱度

    1回答

    僅查看CUDA生成的代碼類型,除了目標文件之外,我還想編譯爲ptx。由於我的一些循環展開可能需要相當長一段時間,我想能夠編譯*.cu→*.ptx→*.o,而不是浪費時間與兩個*.cu→*.ptx和*.cu→*.o,這我目前這樣做。 只需將-ptx添加到nvcc *.cu行即可獲得所需的ptx輸出。 使用ptxas -c來編譯*.ptx到*.o工程,但導致我的可執行文件鏈接錯誤:Relocation

    14熱度

    1回答

    我想了解手寫內核的每個CUDA線程的資源使用情況。 我編譯kernel.cu文件到kernel.o文件,nvcc -arch=sm_20 -ptxas-options=-v ,我得到了下面的輸出 ptxas info : Compiling entry function '_Z12searchkernel6octreePidiPdS1_S1_' for 'sm_20' ptxas info :

    1熱度

    1回答

    我從來沒有使用CUDA或C++之前,但我試圖從(http://www.maisondelasimulation.fr/projects/RAMSES-GPU/html/download.html運行。 由於在我使用的autogen.sh錯誤./。配置和得到這個一個工作 因此產生的makefile文件包含以下NVCC標誌 NVCCFLAGS = -gencode=arch=compute_10,co

    1熱度

    1回答

    NVIDIA CUDA的PTX優化彙編,ptxas,有以下幾個選項: --abi-compile <yes|no> (-abi) Enable/Disable the compiling of functions using ABI. Default value: 'yes'. ABI那是什麼?當你禁用它會發生什麼?它似乎導致更少的寄存器使用,嗯

    2熱度

    1回答

    我試圖讓使用NVCC選項 --ptxas-options=v我CUDA內核有關的寄存器使用情況的信息,並同時與全球功能一切正常,我有一些困難由於 ptxas info : Used N registers 線設備那些缺少在輸出中。我試圖使用noinline關鍵字,並將它們保存在另一個文件中,與調用全局函數有關,因爲我認爲NVCC報告了全局函數的全部註冊使用情況,包括內聯後的被調用設備的全局函數,但

    1熱度

    1回答

    我正在將PTX作爲單獨文件轉換爲聯機PTX。在單獨的PTX文件,我被限定在ISA和目標如下: .version 1.2 .target sm_13 在由編譯器生成的PTX文件,在已經內聯的PTX,編譯器已經指定ISA和目標如下: .version 3.0 .target sm_20 .address_size 64 的.address_size 64對我來說是有問題的,因爲這意味着我

    1熱度

    1回答

    我想攔截NVIDIA GPU上的opencl程序的PTX級別。 我想象例程可能看起來像這樣。首先,我編寫一個opencl程序(主機和設備代碼),使用NVIDIA編譯器生成相應的ptx代碼。然後,我通過修改PTX代碼來編寫我想要做的事情(請不要問我爲什麼不在設備C代碼上這麼做 - 我有一些原因)。但問題是,在修改後,如何將這個PTX代碼編譯爲二進制代碼?

    1熱度

    1回答

    在並行Nsight中逐步串聯PTX時是否可以查看PTX寄存器? 我可以在內聯PTX上設置斷點並逐步通過它,但懸停在PTX寄存器上並不顯示它們的值。我可以打開SASS,懸停在這些寄存器上顯示它們的值,但很難跟蹤PTX寄存器和SASS寄存器之間的關係。

    4熱度

    2回答

    我想CUDA來實現這個原子功能: __device__ float lowest; // global var __device__ int lowIdx; // global var float realNum; // thread reg var int index; // thread reg var if(realNum < lowest) { lowest= realNum

    1熱度

    1回答

    我正在研究一個大的cuda內核,我發現內核每個線程使用43個寄存器。爲了瞭解發生了什麼,我編寫了一個較小的程序來計算註冊使用情況。我注意到,無論何時使用if,註冊使用率都會增加。小代碼如下: #include <limits.h> #include <stdio.h> #include <fstream> #include <iostream> #include <cstdlib> #i