4
我想在BLAS中對矩陣A和向量x執行簡單的就地操作A x \ to x。 sgemv向y提供一個A x + b y \,並調用A x + 0 x將給出不正確的結果。執行這個簡單任務的正確方法是什麼? trmv提供了適當的乘法,但只適用於三角矩陣。BLAS或類似的矩陣 - 向量乘法的地方
矩陣不是很大,也許是64 * 64,但我有一個大約2^14的數組,並重復操作幾次。請注意,結構更復雜,然後A^n x:A取決於2^14數組中的位置和迭代步驟。我假設(也許不正確)交替A x \ y,A y \ to x會有更糟糕的緩存性能?性能非常關鍵。