gpu-programming

6熱度

4回答

我試圖寫在OpenCL的直方圖內核來計算256倉R，G，和B的直方圖。我的內核是這樣的： const sampler_t mSampler = CLK_NORMALIZED_COORDS_FALSE | CLK_ADDRESS_CLAMP| CLK_FILTER_NEAREST; __kernel void computeHistogram(rea

1熱度

3回答

OpenCL中的元素操作（Cuda）

我爲兩個矩陣的元素乘法構建了一個內核，但至少在我的配置中，當每個矩陣大於2GB時，我的OpenCL內核只會更快。所以我想知道，如果是因爲我的天真內核（見下文），或者是因爲元素操作的本質，這意味着元素操作不會從使用GPU中獲益。感謝您的輸入！內核： KERNEL_CODE = """ // elementwise multiplication: C = A .* B. __kernel vo

2熱度

1回答

MATLAB和ATi GPU

如何在MATLAB 2010a上使用我的ATi 5470M進行計算a。我可以讓我的CPU和GPU一起做這件事嗎？我是GPU計算新手。

1熱度

1回答

邁爾斯差異是否適合在GPU上運行？

我有興趣通過在GPU上運行更快的Myers diff實現，即使用OpenCL。我對算法有了很好的理解，但對GPU編程來說是新的。我的直覺是GPU的表現不佳，但我想聽聽想法和想法。下面是對C中算法迭代的描述。我們有兩個字節'left'和'right'的常量緩衝區（我們正在比較的數據）以及一個共享的可變數組int32，稱爲向量。 'idx'是迭代指數。那麼算法本質上是這樣的： void myers_

8熱度

3回答

如何在圖形卡中處理Direct3D和OpenGL指令？

我想更好地瞭解GPU如何工作，我對他們如何處理Direct3D或OpenGL等高級API感到困惑。看到圖形卡廣告支持Direct3D和OpenGL硬件加速是非常常見的。這是否意味着他們直接在硬件中處理Direct3D和OpenGL指令？我一直無法找到明確的證據，或者他們被編譯成GPU可以處理的組裝表示。如果有這樣的轉換誰這樣做？軟件庫（Direct3D/OpenGL），驅動程序還是GPU本身？

0熱度

1回答

SIMT扭曲問題

我在理解GPU上的SIMT執行時遇到了一些問題。到目前爲止，我已經將這些線程放置在「warps」（例如32個線程/ warp）中。這些線程將是相同的類型，並可以並行運行（但可以獨立運行，支持&）。我正在閱讀的書然後繼續混淆我。 'It is then up to the instruction unit to select warps that are ready to execute thei

37熱度

6回答

如何使用GPU進行數學

我正在尋找利用GPU來碾壓某些方程式，但無法弄清楚如何從C＃訪問它。我知道XNA和DirectX框架允許您使用着色器來訪問GPU，但是如何在沒有這些框架的情況下訪問它？

1熱度

2回答

GPU隱藏內存訪問時間

我知道GPU通常具有較高的內存訪問時間。然而，由於在等待內存訪問時執行其他指令而導致訪問時間「隱藏」，性能不會受到很大阻礙。我只是想知道，如果您有一個具有64個工作項目和16個處理器內核的波陣面，則每個處理器內核將擁有64/16 = 4工作項目。而且，所有內核必須並行執行所有工作項目。因此，如果工作項需要內存訪問，會發生什麼？當然，因爲所有的指令都是相同的，你將有16個內存訪問來計算（或者只是

2熱度

1回答

爲CUDA調試選擇一個設備

我有幾個並行Nsight兼容的CUDA GPU。第二個（較低的）連接到我的監視器，第一個（較高的）被設置爲PhysX加速器。您可以在下面清楚地看到我的配置。現在爲了使用Nsight執行CUDA調試，我只需要在未連接到顯示器的GPU上運行內核代碼。我的電腦已經設置爲「無頭調試」。另外下面是我希望在其他GPU上執行的代碼，一個基本的例子： // KernelCall.cu #include <

2熱度

1回答

上傳頂點和索引緩衝區到GPU

我創建一個地形引擎，目前我一次上傳整個地形VB（頂點緩衝區）和IB（索引緩衝）的GPU，因爲地形不巨大。目前是256x256。現在，讓我們說，我想創建一個使用Perlin雜點生成高度圖一個程序地形。我可以生成「補丁」並一次性向GPU上傳補丁的所有VB和IB，但是隨着玩家移動很遠並且必須生成新的補丁，那麼我將不得不生成新補丁並將其上傳到GPU。我在腦海中遇到的困惑或問題有：將VB和IB上傳到GP