我一直在嘗試在OpenCL中進行FFT。它爲我這樣的內核工作,這是OpenCL內核的合適內存?
__kernel void butterfly(__global float2* twid, __global float2* X,
const int n,}
{
/* Butterfly structure*/
}
我稱這個內核成千上萬次。因此,讀取/寫入全局存儲器需要花費太多時間。 twid(float2)數組只讀取,從不操作,數組X是WRITE類型的數組。
1.這是最合適的內存類型嗎? 2.如果我使用本地內存,是否可以將它作爲參數傳遞給另一個內核,而無需將其複製到全局內存?
我是OpenCL的初學者。
使用優化的蝴蝶,性能甚至超過CUDAFFT!它的運行速度比標準OpenCL-PyFFT快! –
不是專用內存與常量內存相同嗎? –
請顯示優化蝴蝶的OpenCL代碼。 –