我是SSE和SSE2的新手,我寫了一個小C樣本(分配兩個計數器,其中一個遞增,另一個遞減)。我使用了intrinsics和Microsoft Visual Studio 10 C++ Express。作爲第二步,我想了解引擎蓋下發生了什麼,但我現在感到困惑。 例如,對於循環的分配操作編譯爲:使用內在函數的SSE2程序集溢出
__m128i a_ptr = _mm_load_si128((__m128i*)&(a_aligned[i]));
mov eax,dword ptr [i]
mov ecx,dword ptr [a_aligned]
movdqa xmm0,xmmword ptr [ecx+eax*2]
movdqa xmmword ptr [ebp-1C0h],xmm0
movdqa xmm0,xmmword ptr [ebp-1C0h]
movdqa xmmword ptr [a_ptr],xmm0
據我瞭解,前兩行得到a_aligned地址的組成部分,而第三線將其複製到XMM0寄存器。但我不明白爲什麼它被複制回內存,而不是xmm0(比a_ptr)。我雖然_mm_load_si128內在應該複製a_aligned [i]的128位到xmm0,沒有更多。這是爲什麼發生?理論上我錯了嗎?如果不是,我應該如何提示編譯器?我的示例代碼是否正確(意思是它沒有不必要的)? 這裏是我的全部示例代碼:
#include <xmmintrin.h>
#include <emmintrin.h>
#include <iostream>
int main(int argc, char *argv[]) {
unsigned __int16 *a_aligned = (unsigned __int16 *)_mm_malloc(32 * sizeof(unsigned __int16),16);
unsigned __int16 *b_aligned = (unsigned __int16 *)_mm_malloc(32 * sizeof(unsigned __int16),16);
unsigned __int16 *c_aligned = (unsigned __int16 *)_mm_malloc(32 * sizeof(unsigned __int16),16);
for(int i = 0; i < 32; i++) {
a_aligned[i] = i;
b_aligned[i] = i;
c_aligned[i] = 0;
}
for(int i = 0; i < 32; i+=8) {
__m128i a_ptr = _mm_load_si128((__m128i*)&(a_aligned[i]));
__m128i b_ptr = _mm_load_si128((__m128i*)&(b_aligned[i]));
__m128i res = _mm_add_epi16(a_ptr, b_ptr);
_mm_store_si128((__m128i*)&(c_aligned[i]), res);
}
for(int i = 1; i < 32; i++) {
std::cout << c_aligned[i] << " ";
}
_mm_free(a_aligned);
_mm_free(b_aligned);
_mm_free(c_aligned);
return 0;
}
哦,這樣一個愚蠢的錯誤,mea culpa。謝謝。 – WebMonster
適合每個人,不要爲此而出汗。 –