gpu-programming

    6熱度

    4回答

    我試圖寫在OpenCL的直方圖內核來計算256倉R,G,和B的直方圖。我的內核是這樣的: const sampler_t mSampler = CLK_NORMALIZED_COORDS_FALSE | CLK_ADDRESS_CLAMP| CLK_FILTER_NEAREST; __kernel void computeHistogram(rea

    1熱度

    3回答

    我爲兩個矩陣的元素乘法構建了一個內核,但至少在我的配置中,當每個矩陣大於2GB時,我的OpenCL內核只會更快。所以我想知道,如果是因爲我的天真內核(見下文),或者是因爲元素操作的本質,這意味着元素操作不會從使用GPU中獲益。 感謝您的輸入! 內核: KERNEL_CODE = """ // elementwise multiplication: C = A .* B. __kernel vo

    2熱度

    1回答

    如何在MATLAB 2010a上使用我的ATi 5470M進行計算a。我可以讓我的CPU和GPU一起做這件事嗎? 我是GPU計算新手。

    1熱度

    1回答

    我有興趣通過在GPU上運行更快的Myers diff實現,即使用OpenCL。我對算法有了很好的理解,但對GPU編程來說是新的。我的直覺是GPU的表現不佳,但我想聽聽想法和想法。 下面是對C中算法迭代的描述。我們有兩個字節'left'和'right'的常量緩衝區(我們正在比較的數據)以及一個共享的可變數組int32,稱爲向量。 'idx'是迭代指數。那麼算法本質上是這樣的: void myers_

    8熱度

    3回答

    我想更好地瞭解GPU如何工作,我對他們如何處理Direct3D或OpenGL等高級API感到困惑。看到圖形卡廣告支持Direct3D和OpenGL硬件加速是非常常見的。這是否意味着他們直接在硬件中處理Direct3D和OpenGL指令? 我一直無法找到明確的證據,或者他們被編譯成GPU可以處理的組裝表示。如果有這樣的轉換誰這樣做?軟件庫(Direct3D/OpenGL),驅動程序還是GPU本身?

    0熱度

    1回答

    我在理解GPU上的SIMT執行時遇到了一些問題。到目前爲止,我已經將這些線程放置在「warps」(例如32個線程/ warp)中。這些線程將是相同的類型,並可以並行運行(但可以獨立運行,支持&)。 我正在閱讀的書然後繼續混淆我。 'It is then up to the instruction unit to select warps that are ready to execute thei

    37熱度

    6回答

    我正在尋找利用GPU來碾壓某些方程式,但無法弄清楚如何從C#訪問它。我知道XNA和DirectX框架允許您使用着色器來訪問GPU,但是如何在沒有這些框架的情況下訪問它?

    1熱度

    2回答

    我知道GPU通常具有較高的內存訪問時間。然而,由於在等待內存訪問時執行其他指令而導致訪問時間「隱藏」,性能不會受到很大阻礙。 我只是想知道,如果您有一個具有64個工作項目和16個處理器內核的波陣面,則每個處理器內核將擁有64/16 = 4工作項目。而且,所有內核必須並行執行所有工作項目。 因此,如果工作項需要內存訪問,會發生什麼?當然,因爲所有的指令都是相同的,你將有16個內存訪問來計算(或者只是

    2熱度

    1回答

    我有幾個並行Ns​​ight兼容的CUDA GPU。第二個(較低的)連接到我的監視器,第一個(較高的)被設置爲PhysX加速器。您可以在下面清楚地看到我的配置。 現在爲了使用Nsight執行CUDA調試,我只需要在未連接到顯示器的GPU上運行內核代碼。我的電腦已經設置爲「無頭調試」。另外下面是我希望在其他GPU上執行的代碼,一個基本的例子: // KernelCall.cu #include <

    2熱度

    1回答

    我創建一個地形引擎,目前我一次上傳整個地形VB(頂點緩衝區)和IB(索引緩衝)的GPU,因爲地形不巨大。目前是256x256。 現在,讓我們說,我想創建一個使用Perlin雜點生成高度圖一個程序地形。我可以生成「補丁」並一次性向GPU上傳補丁的所有VB和IB,但是隨着玩家移動很遠並且必須生成新的補丁,那麼我將不得不生成新補丁並將其上傳到GPU。我在腦海中遇到的困惑或問題有: 將VB和IB上傳到GP