在CUDA文檔中提到,如果我們使用2個流(stream0和stream1),就像這樣:我們在stream0中複製數據,然後在stream0中啓動第一個內核,然後我們從stream0中的設備恢復數據,然後那麼在stream1中執行相同的操作,就像在「CUDA by example 2010」一書中提到的那樣,該方法不提供併發執行,但是在「併發內核示例」中使用了此方法並提供併發執行。那麼你能幫我理解這
考慮以下情況: //thread 0 on device 0:
cudaMemcpyAsync(Dst0, Src0, ..., stream0);//stream0 is on Device 0;
...
//thread 1 on device 1:
cudaMemcpyAsync(Dst1, Src1, ..., stream1);//stream1 is on Device 1;