我已經成功地編寫了一些CUDA FFT代碼,用於對圖像進行2D卷積以及其他一些計算。如何管理cuda中的大型二維FFT
我該如何去弄清楚我能運行的最大的FFT是什麼?看起來,2D R2C卷積計劃需要2倍的圖像尺寸,而另外2倍的圖像尺寸則適用於C2R。這似乎是一個很大的開銷!
另外,它似乎是大多數的基準測試,這些是相對較小的FFTs ..這是什麼?對於大型圖像來說,我將很快耗盡內存。這通常如何處理?你可以在圖像的一個圖塊上執行FFT卷積併合並這些結果,並且期望它與在整個圖像上運行二維FFT相同嗎?
謝謝回答這些問題
2問題的力量是隻有當它是100%最佳運行正確?我一直在運行的圖像大小是可變的,似乎比運行在16核心盒子上的相同算法的matlab版本運行得更快 – Derek 2011-05-13 16:57:14
@Derek,顯然有FFT算法不會強加這種限制。自從我看了這些東西以來,這已經很長時間了。 http://en.wikipedia.org/wiki/Fft – 2011-05-13 17:45:22
耶 - 我想我的主要問題與GPU中不適合的大型FFT有關,以及如何解決問題 – Derek 2011-05-13 19:08:10