1
在計算能力2.x設備上如何確保在使用映射固定內存時gpu使用合併內存訪問,並假定通常在使用全局內存時2D數據需要填充?CUDA固定內存併合並
我似乎無法在任何地方找到有關此信息,也許我應該看起來更好,或者我失去了一些東西。在正確的方向的任何指針,歡迎...
在計算能力2.x設備上如何確保在使用映射固定內存時gpu使用合併內存訪問,並假定通常在使用全局內存時2D數據需要填充?CUDA固定內存併合並
我似乎無法在任何地方找到有關此信息,也許我應該看起來更好,或者我失去了一些東西。在正確的方向的任何指針,歡迎...
的凝聚方法應該使用零拷貝內存時應用。引述CUDA C的最佳做法指南:
由於數據未在GPU緩存,映射 固定內存應該讀取或寫入一次,和全球負載和存儲 讀取和寫入宜內存合併。
由S.庫克引述「CUDA編程」一書中,
如果你想想可以訪問全局內存發生,整個高速緩存行從內存帶來的計算2.X硬件。即使在計算1.x硬件上,也會從全局內存中獲取相同的128個字節,可能會減少到64或32個字節。 NVIDIA不會公佈其使用的PCI-E傳輸大小,或者有關如何實現零複製的詳細信息。但是,用於全局內存的合併方法可以用於PCI-E傳輸。如果有足夠的算術密度來隱藏PCI-E傳輸的延遲,則warp內存延遲隱藏模型同樣可以應用於PCI-E傳輸。