1
使用cusparse,我首先嚐試了疏密乘法與以下尺寸:cusparse疏密乘法X4較大成本比×100更多的時間
C1 [8692 x 8692] = A1 [8692 x 7000 sparse] x B1 [7000 x 8692]
它需要僅爲0.3秒。然後我做了一個又一個具有以下尺寸:
C2 [8820 x 8820] = A2 [8820 x 32000 sparse] x B2 [32000 x 8820]
需要取決於什麼是稀疏矩陣變化的時間,但它在30秒至90秒。我能做些什麼來加速它嗎?如果可以減少運行時間,我可以用不同的方法切割矩陣,但我不確定這裏的性能問題。
稀疏矩陣A1和A2存儲在CSR格式中,它們確實具有不好的稀疏模式,但它們同樣不好。下面的兩張圖分別顯示了非零元素在A1和A2中的位置。每列中的非零元素在兩種情況下被控制爲固定在127
非常感謝!我會嘗試。你的意思是csrmm2在cusparse 6中嗎?矩陣B轉置總是更好嗎? – shaoyl85