我正試圖在CUDA Reduction上實現優化,並且要成功完成,直到第6部分。感謝大家的幫助。爲了獲得CUDA的完整感受,我還需要完成最終優化,如幻燈片#31中所述,稱爲算法級聯。CUDA縮減優化示例
這個想法本質上是每個線程有512個元素,並在執行縮減之前將所有元素相加。
我嘗試了一種方法,我的每個線程都從內存中訪問連續的512個數字。不幸的是,它的表現最差。我猜測是銀行衝突的一個原因,但還沒有完全弄清楚。你們中的任何一個人能否提出這種行爲的原因?
我還發布了下面的Nvidia提供的示例代碼。
unsigned int tid = threadIdx.x;
unsigned int i = blockIdx.x*(blockSize*2) + threadIdx.x;
unsigned int gridSize = blockSize*2*gridDim.x;
sdata[tid] = 0;
while (i < n) {
sdata[tid] += g_idata[i] + g_idata[i+blockSize];
i += gridSize;
}
__syncthreads();
有幾個參數沒有定義。我可以推斷blockSize等於每塊的線程數。但我無法推斷變量'gridSize'的重要性。訪問內存的適當方式是什麼,以便我們獲得更好的性能?這是一個跨越訪問的例子嗎?
如果您有任何其他問題,請提前在下面提供幫助和評論。
所有這些縮減代碼的完整工作示例在相應的[CUDA示例代碼](http://docs.nvidia.com/cuda/cuda-samples/index.html#cuda-parallel-reduction)中提供。你不應該猜測任何參數。我懷疑你提供了足夠的信息來解釋你的觀察。如果您的第6部分的實施表現不佳,您可能應該運行CUDA示例代碼並研究差異。 –