我試圖並行化現有的應用程序,我有大部分應用程序並行並在GPU上運行,我遇到的問題是將一個函數遷移到GPU是否有可能從全局或設備函數調用CUDA CUBLAS函數
該函數使用一個函數dtrsv blas庫的哪一部分,見下文。
void dtrsv_call_N(double* B, double* A, int* n, int* lda, int* incx) {
F77_CALL(dtrsv)("L","T","N", n, B, lda, A, incx);
}
我已經能夠調用相當於CUDA/CUBLAS函數按以下,產生的結果等同於FORTRAN dtrsv子例程。
status = cublasDtrsv(handle,CUBLAS_FILL_MODE_LOWER,CUBLAS_OP_T,CUBLAS_DIAG_NON_UNIT, x, dev_m1, x, dev_m2, c);
if (status != CUBLAS_STATUS_SUCCESS) {
printf ("!!!! kernel execution error.\n");
return EXIT_FAILURE;
}
我的問題是,我需要能夠從一個設備或全局函數調用cublasDtrsv,如下圖所示,
__global__ void Dtrsv__cm2(cublasHandle_t handle,cublasFillMode_t uplo,cublasOperation_t trans, cublasDiagType_t diag,int n, const double *A, int lda, double *x, int incx){
cublasDtrsv(handle,uplo,trans,diag, n, A, lda, x, incx);
}
在CUDA 4.0,如果我嘗試編譯下面我得到的下面錯誤,有誰知道是否有一種方法可以從__device__
或__global__
函數調用cublas函數?
error: calling a host
function("cublasDtrsv_v2")
from a__device__
/__global__
function("Dtrsv__dev")
is not allowed
不,這是不可能的。 Cublas是一個主機API和庫。 – talonmies
非常感謝您的快速回答,有誰知道是否有可以從設備功能或全局功能調用的等效功能? –