gpu-programming

    0熱度

    1回答

    我的算法(並行多面高斯消元)需要在CUDA內核中動態分配內存(樹構建)。有誰知道gpuocelot是否支持這樣的事情? 據此:stackoverflow-link和CUDA編程指南我可以做這樣的事情。但使用gpuocelot時,我在運行時遇到錯誤。 錯誤: 當我打電話malloc()裏面的內核我得到這個錯誤: (2.000239) ExternalFunctionSet.cpp:371: Asse

    1熱度

    1回答

    我正在使用PhysiX實現流體模擬器。不幸的是,cuda上下文管理器存在問題,並且我在識別它是什麼時遇到問題。我有一個init方法,看起來像這樣: void InitializePhysX() { bool recordMemoryAllocations = true; const bool useCustomTrackingAllocator = true; Px

    0熱度

    1回答

    我想將SM的所有可用共享內存分配給一個塊。我這樣做是因爲我不希望將多個塊分配給同一個SM。 我的GPU卡有64KB(共享+ L1)內存。在我目前的配置中,48KB分配給共享內存,16KB分配給L1。 我編寫了下面的代碼來使用所有可用的共享內存。 __global__ void foo() { __shared__ char array[49152]; ... } 我有兩個問

    1熱度

    1回答

    我正試圖計算每個大小爲20000的450個向量之間的互相關。 在CPU上執行此操作時,我將數據存儲在行數= 20000和cols = 450的二維矩陣中。 的計算中的串行代碼看起來像 void computeFF_cpu(float * nSamples, float * nFeatures, float ** data, float ** corr #pragma omp paral

    4熱度

    1回答

    我正在學習cudaDecodeD3D9 sample以瞭解CUDA是如何工作的,在編譯時它會從.cu文件生成.ptx文件。據我瞭解,這個.ptx文件到目前爲止是一箇中間表示,它將在任何特定的GPU中及時編譯。該示例使用類cudaModuleMgr通過cuModuleLoadDataEx加載此文件。 的.ptx文件是文本格式的,我可以看到,在它的頂部是一堆我的機器上的硬編碼路徑,包括我的用戶文件夾,

    0熱度

    1回答

    這是我的代碼。我有一個(x,y)對的數組。我想爲每個座標計算最遠的點。 #define GPUERRCHK(ans) { gpuAssert((ans), __FILE__, __LINE__); } inline void gpuAssert(cudaError_t code, char *file, int line, bool abort=true) { if (code !=

    0熱度

    1回答

    我想實現我的OpenCL內核的原子功能。我創建的多個線程並行地嘗試寫入單個內存位置。我希望他們在特定的代碼行上執行串行執行。我從來沒有使用原子功能。 我發現很多博客和論壇類似的問題,我試圖一個解決方案,即。使用兩個不同的函數'acquire'和'release'來鎖定和解鎖信號量。我已經包含了必要的opencl擴展,這些都得到了我的設備(NVIDIA GeForce GTX 630M)的肯定支持。

    3熱度

    2回答

    嗨,我想請問任何人的經驗是什麼是用F#GPU(例如使用C Nivida GPU api類型提供程序)編程vs KDB處理數據來處理大量數據的最經濟有效的方法。 我知道兩者都是完全不同的方法,但只希望在投資一種或兩種技術之前都曾從事過兩種工作的人的建議。 對於GPU方面的事情,我打算使用單個表和2-3個其他表的簡單連接來使關係數據庫或NoSQL DB(如mongodb)枯燥工作。 有沒有人知道兩種方

    4熱度

    1回答

    EDITED與鏈接問題後的當前狀態對應。 我目前正試圖在CUDA中重新實現基本的矩陣乘法,而我的代碼對於Square矩陣和尺寸爲8的倍數的矩形矩陣都可以正常工作,但它對於尺寸不是矩形矩陣似乎不起作用8. 以下的倍數是我的內核乘法功能: __global__ void matrixMultiply(float * A, float * B, float * C, int numARo

    1熱度

    1回答

    允許nvidia-smi獲取硬件級別詳細信息的內部操作是什麼?即使某些進程已經在GPU設備上運行並獲取了進程的使用細節,名稱和ID等,該工具仍然可以執行。是否可以在用戶級別開發這樣的工具? NVML如何相關?