未能從全局內存中讀取數組CUDA

我在CUDA上實現了一個複雜的算法。但是有一個非常奇怪的問題。這個問題可以概括如下：內核會多次重複一系列的計算。目前迭代的計算取決於前一個的結果。我在全局內存上使用數組來在每次迭代中在塊之間傳遞信息。例如，有2個塊，對於每個迭代，塊0將結果保存到全局內存中，然後塊1從全局內存中讀取它。但問題是塊1不能從全局內存讀取數組。它有時會返回第一次迭代的結果，而不是前一次。未能從全局內存中讀取數組CUDA

a_e和e_a是全局mem上的兩個數組，大小爲[2 * 8]。 d_a_e和d_e_a位於共享內存上，大小爲[blockDim.x + 1] [8]。

if(threadIdx.x<8) 
{ 
    //block 0 writes, block 1 reads, this can't work properly 
    a_e[blockIdx.x*8+threadIdx.x]=d_a_e[blockDim.x][threadIdx.x]; 
    if(blockIdx.x>0) 
      d_a_e[0][threadIdx.x]=a_e[(blockIdx.x-1)*8+threadIdx.x]; 

    //block 1 writes, block 0 reads, this can work properly 
    e_a[blockIdx.x*8+threadIdx.x]=d_e_a[0][threadIdx.x]; 
    if(blockIdx.x < gridDim.x-1) 
      d_e_a[blockDim.x][threadIdx.x]=e_a[(blockIdx.x+1)*8+threadIdx.x]; 
}

來源

2013-01-23 An Li

Cuda不保證第一個塊在第二個塊之前運行，即使他們這樣做也不能保證全局內存一致性。 – talonmies

此設置不起作用;你有效地試圖序列化你的評論中提到的矮人的塊，是行不通的。從CUDA編程指南：

「需要獨立執行的線程塊：必須能夠以任意順序，並行或串行方式執行它們。這種獨立性要求允許線程塊以任意順序核心數量......」 http://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#thread-hierarchy

你最好的追索權，如果可能推出單獨的內核（如您執行的第一個內核中的塊0計算，1塊在第二個內核等），以試圖強制執行第一個內核的結果在下一個內核中讀取之前完成。在塊間同步方面已經完成了一些工作，但是您不需要從中獲得太多好處，因爲您需要序列化塊。

編輯：我還應該指出，塊調度沒有記錄，並可能在任何時候改變，所以任何塊間同步將是不可移植的，並有可能在驅動程序或CUDA工具包中斷更新。

來源

2013-01-24 00:09:52 alrikai

未能從全局內存中讀取數組CUDA

回答

相關問題