我有以下內容(片段)。當它是靜態的(甚至相同的大小)它非常快,但是當CurrentProbs是動態分配的(如上)時,性能很糟糕。CUDA內核內部的內存分配
這個問題說,我可以這樣做一個內核中:CUDA allocate memory in __device__ function
這裏有一個相關的問題:Efficiency of Malloc function in CUDA
是否有任何其他方法已經比在本文提出的一個解決了這個其他的我不知道? 在沒有這種懲罰的情況下,在內核中不能malloc/free是很荒謬的。
'tmp'來自您的僞代碼? – talonmies 2012-03-21 14:24:18
抱歉 - tmp = nComponents [0]; – 2012-03-21 14:25:36
因此,每個內核調用都是不變的?如果是這樣,爲什麼還要費神地分配內存分配? – talonmies 2012-03-21 15:02:58