我已經有一個已經並行化的CUDA內核,它執行一些需要頻繁插值的任務。並行化來自CUDA設備函數/內核的方法
所以這是一個內核
__global__ void complexStuff(...)
它調用一次或多次該插補設備功能:
__device__ void interpolate(...)
插值算法做了WENO插在連續三個維度。這是一個高度可並行化的任務,我迫切希望並行化!
很明顯,通過使用<<<...>>>
語法從主機代碼調用內核,可以很容易地將內核complexStuff()
並行化。 complexStuff()
已經並行化也很重要。
但是我不清楚如何在CUDA設備函數中並行化/創建新線程......這甚至有可能嗎?有人知道嗎?