0
CUDA允許使用cuMemcpy異步函數和流重疊計算和數據傳輸。但是NPP(Performance Primitives)有可能嗎?NPP:重疊計算和數據傳輸
有點背景。我試圖利用GPU使用NPP圖像調整大小功能(在我們的例子中,它是nppiResize_8u_C3R)。我使用固定內存並使用cuMemcpy2DAsync_v2和每個線程流成功地將數據傳輸到GPU。問題是nppiResize_8u_C3R和所有其他計算功能不接受流。
當我運行Nvidia的視覺探查我看到了未來:
- 固定的內存可以讓我更快的傳輸數據 - 〜6.524 GB /秒。
- memcpy與compute並行執行的時間百分比爲0%。
使用* nppSetStream *可以獲得性能提升嗎?我試過了,但沒有成功。我有一種感覺,NPP並非針對併發或重疊場景而設計的,而要利用GPU,我需要直接使用CUDA驅動程序API。 –