0
我有兩個問題:內核underworking問題和執行成本
- 是更好地使內核過度勞累或underwork?比方說,我想用僅有4個GPU核心來計算差異圖像。我應該考慮我的圖像的任何像素是由1個線程獨立計算還是應該讓1個線程計算我的圖像的整行?我不知道哪種解決方案最適合使用。我已經矢量化了第一個選項(它被推送了),但我只獲得了一些ms,但這不是很有意義。
- 我的第二個問題是關於內核的執行成本。我知道如何測量任何OpenCL命令隊列任務(複製,寫入,讀取,內核...),但我認爲主機需要花費時間將內核加載到GPU內核。有什麼方法可以評估它嗎?
巴蒂斯特