cuda

    3熱度

    1回答

    我想通過CUDA代碼將現有項目的某些部分移植到GPU。我知道cmake有選項(find_cuda ...)來單獨處理.cu文件,但我仍在試圖弄清楚這個生態系統如何在現有項目中使用。 我的問題是以下。假設我有一個帶有cmake配置文件(CMakeLists)的現有C++項目。目前的做法是什麼(如果可能的話)包括CUDA內核? CMakeLists可以以某種方式構建,.cu文件僅在GPU存在時編譯?

    -4熱度

    1回答

    我希望瞭解爲什麼在將內核初始化之後從設備到主機複製bools陣列d_unique時,爲什麼會出現下列程序崩潰。 我的GPU是Quadro K1000M(移動計算能力3.0)。我與CUDA版本的工作8. #include <iostream> // nvcc -ccbin g++ -g -m64 -gencode arch=compute_30,code=sm_30 -o Bug Bug.cu

    2熱度

    2回答

    我意識到這已經被問了很多,但我一直在試圖調試這一天,並且我還沒有找到解決方案,這將解決我的問題。 所以,我有一個makefile: if(GPU) # set(CUDA_HOST_COMPILER /usr/bin/gcc-4.8) find_package(CUDA QUIET) if(CUDA_FOUND) include_directories(${CUD

    0熱度

    1回答

    我有興趣獲得併發cuda內核的內存性能計數器。我試圖使用幾個nvprof選項,如--metrics all和--print-gpu-trace。輸出似乎表明內核不再是併發的。每個內核的併發性能指標與單獨運行每個內核的指標幾乎完全相同。我認爲這些併發內核按順序運行。我怎麼能得到併發內核的內存性能指標計數器,例如L2緩存?

    0熱度

    1回答

    如果我運行以下命令: c++ -c --std=c++11 $(includes) -o src/main.o src/main.cpp nvcc -c -m64 -arch=sm_30 --std=c++11 $(includes) -o src/kernels/add.o src/kernels/add.cu ar qc src/kernels/libkernels.a src/kerne

    -1熱度

    1回答

    我有一個序列長度不同的數組,每個序列以'>'結尾。 seq = [a,b,f,g,c,d,>,b,g,d,> ....]。我計算了每個序列的長度並將其存儲在一個名爲seq_length = [6,3,5,...]的不同數組中。然後,我使用排他掃描來計算偏移量並將其存儲在一個名爲offset = [0,6,9,...]的數組中。 我想要的是讓每個塊通過使用偏移值從數組seq []中讀取一個序列。例如

    0熱度

    1回答

    我想我的C++只項目CUDA代碼在GPU上運行的轉換。 我是新來的CUDA編程,我不知道如何處理這種情況下做的: 如果我有一個非常複雜的類定義,現在我想一個類實例傳遞給設備並執行它的一些成員函數在設備上,然後我應該重寫我的整個.cpp文件。我是否只需要將設備上運行的這些功能轉換爲__host__ __device__或者是否應該重寫所有功能? 我認爲沒有功能類型限定爲__host__nvcc治療功

    2熱度

    1回答

    我正在嘗試使用CMake和Visual Studio 2017編譯CUDA項目, 但構建失敗,詳情如下。 系統: 的Windows 10 Pro的64 Visual Studio企業版2017年15.3.2 CUDA 9 RC(版本9.0.103) 的CMake 3.9.1(發電機:Visual Studio的2017年15 Win64中) 虛設項目: 的CMakeLists.txt cmake_

    3熱度

    2回答

    我目前正在嘗試使用CUDA 9.0RC編譯OpenCV 3.3,但無法完成所有工作。 (在Windows上編譯,用CMake 3.9和Visual Studio 2017,用於x64 Windows) 首先,如果我嘗試在沒有CUDA的情況下編譯OpenCV,那麼一切正常。 在那之後,我加入C進行「WITH CUDA」選項,與所有正確的路徑,和Visual Studio給我這個錯誤: 9>-----

    1熱度

    1回答

    我有一個二進制圖像作爲輸入。二進制圖像包含前景中的幾個不相交區域。 對於不在某個區域的每個像素,我想知道距離最近區域邊界的距離。這是一個標準的圖像處理算法?如果是這樣,那叫什麼?它看起來與距離變換算法不同。 我想出的bruteforce解決方案是使用Sobel邊緣檢測區域邊界。然後,對於不在某個區域中的每個像素,計算與所有邊界像素的距離並取最小值。 我將在CUDA中實現它,所以我在考慮將邊界像素放