0
我在Cuda中實現了RNS蒙哥馬利求冪。Cuda,爲什麼我不能使用多個流處理器?
一切都很好,一切都很好。它只在一個SM上運行。
但是,到目前爲止,我只關注單個exp的並行化。我現在想要做的就是在幾個實驗室進行測試。也就是說,我希望將第i個下一個exp分配給一個空閒的SM。
我試過了,最後的時間總是線性增長,那就是所有的exp都分配給了同一個SM。
然後我切換到流,但沒有任何改變。
不過,我從來沒有使用過,所以也許我做錯了什麼..
這是代碼:
void __smeWrapper() {
cudaEvent_t start, stop;
cudaStream_t stream0, stream1, stream2;
float time;
unsigned int j, i, tmp;
cudaEventCreate(&start);
cudaEventCreate(&stop);
dim3 threadsPerBlock(SET_SIZE, (SET_SIZE+1)/2);
setCudaDevice();
s_transferDataToGPU();
if(cudaDeviceSetCacheConfig(cudaFuncCachePreferL1) != cudaSuccess)
printf("cudaDeviceSetCacheConfig ERROR!");
cudaEventRecord(start, 0);
//for(i=0; i<EXPONENTIATION_NUMBER; i++) {
i=0;
__me<<< 1, threadsPerBlock, 0, stream0 >>>(&__s_x[i*(2*SET_SIZE + 1)], __B2modN, __bases, __mmi_NinB, __mmi_Bimodbi, __Bi_inAUar, __dbg, __NinAUar,
__mmi_BinAUar, __mmi_Ajmodaj, __Ajmodar, __mmi_Armodar, __AjinB, __minusAinB, &__z[i*(2*SET_SIZE + 1)], __e);
i=1;
__me<<< 1, threadsPerBlock, 0, stream1 >>>(&__s_x[i*(2*SET_SIZE + 1)], __B2modN, __bases, __mmi_NinB, __mmi_Bimodbi, __Bi_inAUar, __dbg, __NinAUar,
__mmi_BinAUar, __mmi_Ajmodaj, __Ajmodar, __mmi_Armodar, __AjinB, __minusAinB, &__z[i*(2*SET_SIZE + 1)], __e);
i=2;
__me<<< 1, threadsPerBlock, 0, stream2 >>>(&__s_x[i*(2*SET_SIZE + 1)], __B2modN, __bases, __mmi_NinB, __mmi_Bimodbi, __Bi_inAUar, __dbg, __NinAUar, __mmi_BinAUar,
__mmi_Ajmodaj, __Ajmodar, __mmi_Armodar, __AjinB, __minusAinB, &__z[i*(2*SET_SIZE + 1)], __e);
//printf("\n%s\n\n", cudaGetErrorString(cudaGetLastError()));
//}
cudaEventRecord(stop, 0);
cudaEventSynchronize(stop);
cudaEventElapsedTime(&time, start, stop);
printf("GPU %f µs : %f ms\n", time*1000, time);
cudaEventDestroy(start);
cudaEventDestroy(stop);
的Ubuntu 11.04 64B,Cuda的5 RC,560鈦(8 SM)
是的,我增加了塊號,它的工作。謝謝。只是一個問題,是否有一種方法讓__me的多重平行運行(每個都在不同的SM上),或者您建議的方法是唯一的和/或正確的方法? @Eugene – elect
我只注意到你正在使用流。你在哪裏創建流,你如何檢測到流不併發?以下代碼嘗試並行運行代碼(我的內核太小並且在下一個啓動之前完成): \t for(i = 0; i <10; i ++){CUDA_CHECK_RETURN(cudaStreamCreate(stream + i) ); bit_verse <<< 1,WORK_SIZE,WORK_SIZE * sizeof(int),stream [i] >>>(d); \t \t CUDA_CHECK_RETURN(cudaStreamDestroy(stream [i])); \t} – Eugene