cuda-streams

    0熱度

    1回答

    我正在研究CUDA,並對全局內存和CUDA流有疑問。 令: __device__ float Aux[32]; __global__ void kernel1(...) { [...] Aux[threadIdx.y] = 0; [...] } 所以,如果我上運行不同的流GPU這個內核。 Aux對所有流都一樣嗎?或者是所有流爲Aux全局變量的Aux變量? 我無

    0熱度

    1回答

    我試圖在一個內核函數中設置一個標誌,並在另一個內核函數中讀取它。基本上,我試圖做到以下幾點。 #include <iostream> #include <cuda.h> #include <cuda_runtime.h> #define FLAGCLEAR 0 #def

    0熱度

    1回答

    我從頭創建了CUDA的掃描算法,並嘗試將其用於小於80,000字節的較小數據量。 創建了兩個單獨的實例,其中一個在可能的情況下使用流運行內核,另一個只在默認流中運行。 我觀察到的是,對於這個數據大小範圍,與其他方法相比,運行流需要更長的時間來完成任務。 當使用nvprofiler分析,什麼觀察到的是,對數據大小較小的量,在數據流上運行將不會單獨kernals 提供並行沒有流 隨着流 但是當數據大小

    0熱度

    1回答

    我目前正在通過計算兩個向量之間的點積來學習CUDA流。這些成分是一個核函數,它接受向量x和y,並返回一個大小等於塊數的向量,結果,其中每個塊貢獻自己的減少的總和。 我也有一臺主機功能dot_gpu調用內核,並降低了矢量結果到最終點積值。 同步版本不只是這一點: // copy to device copy_to_device<double>(x_h, x_d, n); copy_to_devi

    3熱度

    1回答

    我想使用流來並行執行在單獨的設備數據陣列上工作的內核。數據在設備上分配並從以前的內核中填充。 我寫了下面的程序,顯示我目前無法達到目標。事實上,兩個非默認流上的內核在它們各自的流中順序執行。 在最新的Debian linux版本的2臺英特爾機器上觀察到相同的行爲。其中一款採用CUDA 4.2的特斯拉C2075,另一款採用CUDA 5.0的Geforce 460GT。 Visual Profiler

    0熱度

    2回答

    在CUDA文檔中提到,如果我們使用2個流(stream0和stream1),就像這樣:我們在stream0中複製數據,然後在stream0中啓動第一個內核,然後我們從stream0中的設備恢復數據,然後那麼在stream1中執行相同的操作,就像在「CUDA by example 2010」一書中提到的那樣,該方法不提供併發執行,但是在「併發內核示例」中使用了此方法並提供併發執行。那麼你能幫我理解這

    0熱度

    1回答

    考慮以下情況: //thread 0 on device 0: cudaMemcpyAsync(Dst0, Src0, ..., stream0);//stream0 is on Device 0; ... //thread 1 on device 1: cudaMemcpyAsync(Dst1, Src1, ..., stream1);//stream1 is on Device 1;

    1熱度

    1回答

    在CUDA中,流0如何與其他流關聯?流0(默認流)是否與上下文中的其他流同時執行? 考慮下面的例子: cudaMemcpy(Dst, Src, sizeof(float)*datasize, cudaMemcpyHostToDevice);//stream 0; cudaStream_t stream1; /...creating stream1.../ somekernel<<<bl

    0熱度

    3回答

    在我的系統中,使用蒸汽重疊數據傳輸與內核執行不起作用。 你好 我想在CUDA中使用重疊計算和數據傳輸,但我不能。 NVIDIA幫助文檔說如果使用流,重疊計算和數據傳輸是可能的。 但我的系統沒有工作 請幫幫我。 我的系統是低於 OS:微軟Windows 7 64位 CUDA:版本5.0.7 Develp套件:視覺studion 2008 GPU:GTX 680 我得到一個配置文件查看是這樣的 我沒有

    0熱度

    1回答

    我試圖在CUDA上調用同一個內核(使用一個不同的輸入參數)多次,但它只執行第一個內核並且不跟隨其他內核調用。 假設輸入陣列是 new_value0=[123.814935276; 234; 100; 166; 203.0866414; 383; 186; 338; 173.0984233]和輸出的 new_value1=[186.221113; 391; 64; 235; 195.7454998;