0
我正在構建一個內核,其中使用Magma函數magma_dgeqrf2_gpu執行QR分解。此輸出上三角矩陣R到GPU設備上的常規基質D_A。從「magma_dgeqrf2_gpu」(這是一個通用矩陣)的結果中提取上三角矩陣而不轉移到主機
不轉移D_A回主機(因爲我需要進一步操作GPU),有隻減少或提取D_A到裝置上的上三角矩陣R一個lib方式嗎?
我正在構建一個內核,其中使用Magma函數magma_dgeqrf2_gpu執行QR分解。此輸出上三角矩陣R到GPU設備上的常規基質D_A。從「magma_dgeqrf2_gpu」(這是一個通用矩陣)的結果中提取上三角矩陣而不轉移到主機
不轉移D_A回主機(因爲我需要進一步操作GPU),有隻減少或提取D_A到裝置上的上三角矩陣R一個lib方式嗎?
這有點傻,但我發現解決方案只是簡單地使用magmablas_dlacopy()並設置屬性以將上三角矩陣複製到設備上的另一個矩陣(已設置爲0)。