我試圖用GPU執行縮減,也就是從數組的所有元素中找到最大值。有來自Nvidia here的教程,讓我們來說說最簡單的方法幻燈片針對億元素陣列的GPU縮減
我唯一的問題是我的數組是巨大的!它可以達到40億個元素。從幻燈片7中的示例代碼中,需要在塊共享內存和全局內存之間來回複製,並且使用全局內存來存儲所有元素,這在我目前的理解中是無法避免的。此存儲超過2GB的顯卡內存。
有沒有什麼辦法可以用這麼大的陣列來減少這個數目呢還是現在的圖形硬件的限制?
PS:在未來的擴展版本,我還計劃與更多的超過4個十億元素
爲什麼你不能只執行減少輸入數據的塊,以適應GPU內存,然後減少部分結果以找到真正的最大值? – talonmies
我現在感覺很傻!也許應該關閉這個問題。感謝您的提示! –