我正在玩_mm_stream_ps內在,我在理解其性能方面遇到了一些麻煩。流內在降低性能
這裏是我工作的代碼片段... 流版本:
#include <stdio.h>
#include <stdint.h>
#include <stdlib.h>
#include <omp.h>
#include <immintrin.h>
#define NUM_ELEMENTS 10000000L
static void copy_temporal(float* restrict x, float* restrict y)
{
for(uint64_t i = 0; i < NUM_ELEMENTS/2; ++i){
_mm_store_ps(y,_mm_load_ps(x));
_mm_store_ps(y+4,_mm_load_ps(x+4));
x+=8;
y+=8;
}
}
static void copy_nontemporal(float* restrict x, float* restrict y)
{
for(uint64_t i = 0; i < NUM_ELEMENTS/2; ++i){
_mm_stream_ps(y,_mm_load_ps(x));
_mm_stream_ps(y+4,_mm_load_ps(x+4));
x+=8;
y+=8;
}
}
int main(int argc, char** argv)
{
uint64_t sizeX = sizeof(float) * 4 * NUM_ELEMENTS;
float *x = (float*) _mm_malloc(sizeX,32);
float *y = (float*) _mm_malloc(sizeX,32);
//initialization
for(uint64_t i = 0 ; i < 4 * NUM_ELEMENTS; ++i){
x[i] = (float)rand()/RAND_MAX;
y[i] = 0;
}
printf("%g MB allocated\n",(2 * sizeX)/1024.0/1024.0);
double start = omp_get_wtime();
copy_nontemporal(x, y);
double time = omp_get_wtime() - start;
printf("Bandwidth (non-temporal): %g GB/s\n",((3 * sizeX)/1024.0/1024.0/1024.0)/time);
start = omp_get_wtime();
copy_temporal(x, y);
time = omp_get_wtime() - start;
printf("Bandwidth: %g GB/s\n",((3 * sizeX)/1024.0/1024.0/1024.0)/time);
_mm_free(x);
_mm_free(y);
return 0;
}
性能測試結果:
2.3 GHz Core i7 (I7-3615QM) (Laptop):
305.176 MB allocated
Bandwidth (non-temporal): 24.2242 GB/s
Bandwidth: 21.4136 GB/s
Xeon(R) CPU E5-2650 0 @ 2.00GHz (cluster (exclusive job)):
305.176 MB allocated
Bandwidth (non-temporal): 8.33133 GB/s
Bandwidth: 8.20684 GB/s
真正困擾我的是,我看到更好的性能 - - 在Xeon CPU上(不在我的筆記本電腦上) - 如果我使用非對齊的加載和存儲(即storeu_ps/loadu_ps):
305.176 MB allocated
Bandwidth (non-temporal): 8.30105 GB/s
Bandwidth: 12.7056 GB/s
由於y的冗餘負載,我期望流版本比非流版本更快。但是,測量結果顯示,流版本實際上比非流版本慢兩倍。
你對此有任何解釋嗎?使用編譯器:Intel 14.0.1;使用編譯器:Intel 14.0.2;使用編譯器:Intel 14.0.1;使用編譯器:Intel 14.0.1;使用編譯器:Intel 14.0.1; 編譯器標誌:-O3 -restrict -xAVX; 使用的CPU:Intel Xeon E5-2650;
謝謝。
沒有必要展開循環。循環展開只在依賴關係鏈中有用,並且沒有依賴關係鏈。 CPU可以幫你處理這個問題。但我有個問題。在你的帶寬計算中,3是什麼因素? –
兩次讀取+一次寫入。即使非時間版本只做一次閱讀,我仍然保留三個因子來簡化比較。 – user1829358