2012-08-26 40 views

回答

0

理論上,在計算能力> = 2.0的設備上,使用全局內存的塊之間的傳輸可能非常快,因爲全局內存事務使用L1和L2高速緩存。

但是,在塊之間安全傳輸內存的唯一方法是在單獨的內核調用中啓動這些塊。然後,你失去了我剛剛描述的理論優勢,因爲緩存在調用之間被刷新。

在給定的內核調用中,您無法知道您的塊將以何種順序啓動。

在單獨的內核調用啓動的塊之間傳輸數據是CUDA中的常見範例,如果有足夠的計算工作要做,全局內存事務的延遲可以完全隱藏。

相關問題