5
假設我有上證所SSE4.1,而不是AVX(2),什麼是加載一個包裝的內存佈局是這樣的(所有32位整數),最快的方法:在沒有AVX(2)的情況下進行SIMD收集的最快方法是什麼?
a0 b0 c0 d0 a1 b1 c1 d1 a2 b2 c2 d2 a3 b3 c3 d3
分爲四個向量a, b, c, d
?
a: {a0, a1, a2, a3}
b: {b0, b1, b2, b3}
c: {c0, c1, c2, c3}
d: {d0, d1, d2, d3}
我不知道這是否是相關與否,但在我的實際應用中我有16個向量,因此a0
和a1
相距16個* 4字節的內存。
您可能錯過了關於有16個向量而不是4的問題中的句子。我應該使用4個轉置嗎? – orlp
事實上 - 如果不知道你打算如何處理所有這些載體,很難提供完整的解決方案,但是,可以對剩下的12個載體重複上述步驟,每組4個。 –