0
如何以最快速度將256字節的數據塊從一個CUDA塊傳輸到另一個CUDA塊? 有沒有比全球內存傳輸速度更快的方法?如何以最快速度將256字節的數據塊從一個CUDA塊傳輸到另一個CUDA塊?
如何以最快速度將256字節的數據塊從一個CUDA塊傳輸到另一個CUDA塊? 有沒有比全球內存傳輸速度更快的方法?如何以最快速度將256字節的數據塊從一個CUDA塊傳輸到另一個CUDA塊?
理論上,在計算能力> = 2.0的設備上,使用全局內存的塊之間的傳輸可能非常快,因爲全局內存事務使用L1和L2高速緩存。
但是,在塊之間安全傳輸內存的唯一方法是在單獨的內核調用中啓動這些塊。然後,你失去了我剛剛描述的理論優勢,因爲緩存在調用之間被刷新。
在給定的內核調用中,您無法知道您的塊將以何種順序啓動。
在單獨的內核調用啓動的塊之間傳輸數據是CUDA中的常見範例,如果有足夠的計算工作要做,全局內存事務的延遲可以完全隱藏。
不,只有全局內存。 – geek
即便如此,嘗試通過全局內存進行塊間通信仍然存在許多正確性問題。通常,如果您的算法需要塊間同步或數據交換,則需要新的算法.... – talonmies