CUDA中的非方形矩陣乘法

對於我的GPU編程類，我們的任務是完成非方形矩陣乘法程序的某些部分。具體來說，內核函數和初始化線程塊和內核網格維度。CUDA中的非方形矩陣乘法

我已經將我的代碼基於CUDA C編程指南的矩陣乘法代碼，但我沒有像使用結構那樣使用結構，而是修改了我的參數（因爲我們不允許更改參數）。我們提供了3個矩陣A，B和C，以及它們的尺寸 - m x k，k x n和m x n。凡結構，用於A.height，我用維數m，它曾經B.width，我用n維等

我碰到的幾個問題，其中第一個是我的程序沒有通過所包含的測試，這驗證了產品矩陣C的正確性。我假設在我的矩陣乘法代碼中存在錯誤，那麼這個問題可能是由我調整結構代碼引起的。

#include <stdio.h> 
__global__ void mysgemm(int m, int n, int k, const float *A, const float *B, 
     float* C) { 

    /******************************************************************** 
    * 
    * Compute C = A x B 
    * where A is a (m x k) matrix 
    * where B is a (k x n) matrix 
    * where C is a (m x n) matrix 
    * 
    ********************************************************************/ 

    // INSERT KERNEL CODE HERE 
    // Each thread computes one element of C 
    // by accumulating results into Cvalue 
    float Cvalue = 0; 
    int row = blockIdx.y * blockDim.y + threadIdx.y; 
    int col = blockIdx.x * blockDim.x + threadIdx.x; 

    for (int e = 0; e < k; ++e){ 
     Cvalue += (A[row * k + e]) * (B[e * n + col]); 
    } 
    C[row * n + col] = Cvalue; 
}

我的其他問題，我甚至更確定的，涉及到代碼初始化線程塊和核心網的尺寸。

// Initialize thread block and kernel grid dimensions --------------------- 
    const unsigned int BLOCK_SIZE = 16; // Use 16x16 thread blocks 
//INSERT CODE HERE 
    dim3 dimBlock(BLOCK_SIZE, BLOCK_SIZE); 
    dim3 dimGrid(n/dimBlock.x, m/dimBlock.y); 
// Invoke CUDA kernel ----------------------------------------------------- 
//INSERT CODE HERE 
    mysgemm<<<dimGrid, dimBlock>>>(m, n, k, A, B, C);

我明白dimBlock，但我不明白dimGrid，並沒有一個適當的想法來使用它作爲參數。當我按原樣運行代碼時，如果我通過的矩陣的維數不是2的冪，那麼內核甚至不會啓動。如果我使用2的冪，則測試仍然失敗。

我道歉，如果我太羅嗦了。這是我的第一篇文章，我想給儘可能多的細節。希望有人能幫助我解決這些問題。

來源

2013-09-25 JoBo

關於cuda矩陣乘法有很多問題，幾乎考慮了所有可能的變體。像[這一個]例如（http://stackoverflow.com/questions/18815489/cuda-tiled-matrix-matrix-multiplication-with-shared-memory-and-matrix-size-whic）。也許你應該回顧一些已經被要求提出想法/提示/線索的問題。 –

你的代碼目前只能當m和n是16的倍數，這是你的塊大小。

你現在可以做的兩件事情，使它在任意大小的工作。

充分利用網格尺寸足夠大，以代替支付使用地板的n/blockdim.x的整個矩陣C.爲你做了，你可以通過
使用該值的小區
```
(n+blockdim.x-1)/blockdim.x 
```
完成第1步後，由於天花板操作，您所乘的矩陣會稍大一些。您可以通過在內核中添加if子句將乘法限制爲結果矩陣C的確切大小。

有關更多詳細信息，請參閱CUDA文檔，尤其是編程指南。

http://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html

來源

2013-09-25 07:22:37 kangshiyin

下面的內核，我下面張貼是一個變種我在

CUDA: Tiled matrix-matrix multiplication with shared memory and matrix size which is non-multiple of the block size

張貼在它不使用共享內存。

__global__ void MatMulNoShared(float* A, float* B, float* C, int ARows, int ACols, int BRows, int BCols, int CRows, int CCols) { 

    float CValue = 0; 

    int Row = blockIdx.y*TILE_DIM + threadIdx.y; 
    int Col = blockIdx.x*TILE_DIM + threadIdx.x; 

    for (int k = 0; k < (TILE_DIM + ACols - 1)/TILE_DIM; k++) { 

     for (int n = 0; n < TILE_DIM; ++n) 
      if ((k*TILE_DIM + n < ACols && Row < ARows) && (k*TILE_DIM + n < BRows && Col < BCols)) 
       CValue += A[Row*ACols + k*TILE_DIM + n] * B[(k*TILE_DIM + n)*BCols + Col]; 

    } 

    if (Row < CRows && Col < CCols) C[((blockIdx.y * blockDim.y + threadIdx.y)*CCols)+(blockIdx.x*blockDim.x)+threadIdx.x]=CValue; 
}

內核兩個if語句是由Eric的答覆中提到的if語句。

爲了您的方便起見，我在下面張貼的完整代碼：

#include <stdio.h> 
#include <math.h> 
#include <conio.h> 

#define TILE_DIM 16      // Tile dimension 
#define DIMX 373        
#define DIMY 242 
#define DIMZ 533 

__global__ void MatMulNoShared(float* A, float* B, float* C, int ARows, int ACols, int BRows, int BCols, int CRows, int CCols) { 

    float CValue = 0; 

    int Row = blockIdx.y*TILE_DIM + threadIdx.y; 
    int Col = blockIdx.x*TILE_DIM + threadIdx.x; 

    for (int k = 0; k < (TILE_DIM + ACols - 1)/TILE_DIM; k++) { 

     for (int n = 0; n < TILE_DIM; ++n) 
      if ((k*TILE_DIM + n < ACols && Row < ARows) && (k*TILE_DIM + n < BRows && Col < BCols)) 
       CValue += A[Row*ACols + k*TILE_DIM + n] * B[(k*TILE_DIM + n)*BCols + Col]; 

    } 

    if (Row < CRows && Col < CCols) C[((blockIdx.y * blockDim.y + threadIdx.y)*CCols)+(blockIdx.x*blockDim.x)+threadIdx.x]=CValue; 
} 

int main() { 

    int CCols = DIMZ, CRows=DIMX, ACols=DIMY, ARows=DIMX, BCols=DIMZ, BRows=DIMY; 

    dim3 dimBlock(TILE_DIM, TILE_DIM, 1); 
    dim3 dimGrid; 

    dimGrid.x = (CCols + dimBlock.x - 1)/dimBlock.x; 
    dimGrid.y = (CRows + dimBlock.y - 1)/dimBlock.y; 

    float *deviceA, *deviceB, *deviceC; 

    float* hostA = (float*)malloc(DIMX*DIMY*sizeof(float)); 
    float* hostB = (float*)malloc(DIMY*DIMZ*sizeof(float)); 
    float* hostC = (float*)malloc(DIMX*DIMZ*sizeof(float)); 
    float* hostCp = (float*)malloc(DIMX*DIMZ*sizeof(float)); 

    for (int x = 0; x<DIMX; x++) 
     for (int y = 0; y<DIMY; y++) { 
      hostA[x*DIMY+y] = rand()/(float)RAND_MAX; 
      hostB[x*DIMY+y] = rand()/(float)RAND_MAX; 
     } 

    cudaMalloc((void **)&deviceA, DIMX*DIMY*sizeof(float)); 
    cudaMalloc((void **)&deviceB, DIMY*DIMZ*sizeof(float)); 
    cudaMalloc((void **)&deviceC, DIMX*DIMZ*sizeof(float)); 

    cudaMemcpy(deviceA, hostA, DIMX*DIMY*sizeof(float), cudaMemcpyHostToDevice); 
    cudaMemcpy(deviceB, hostB, DIMY*DIMZ*sizeof(float), cudaMemcpyHostToDevice); 

    MatMulNoShared<<<dimGrid , dimBlock>>>(deviceA , deviceB , deviceC , ARows , ACols, BRows ,BCols , CRows , CCols); 

    cudaMemcpy(hostC, deviceC, DIMX*DIMZ*sizeof(float), cudaMemcpyDeviceToHost); 

    return 0; 
}

注意，兩個指令

dimGrid.x = (CCols + dimBlock.x - 1)/dimBlock.x; 
    dimGrid.y = (CRows + dimBlock.y - 1)/dimBlock.y;

確保矩陣的全覆蓋平鋪，如前所述在埃裏克答案的第一點。

來源

2013-09-25 14:03:19 JackOLantern

非常感謝^ _ ^ –

CUDA中的非方形矩陣乘法

回答

相關問題