avx

7熱度

1回答

x86兼容的加速器Intel Xeon Phi中是否存在SIMD（SSE/AVX）指令？

x86兼容加速器MIC Intel Xeon Phi中是否存在SIMD（SSE/AVX）指令？ http://en.wikipedia.org/wiki/Xeon_Phi

3熱度

1回答

我有我試圖加快的代碼。首先，我使用了SSE內在因素，並看到顯着的收益。我現在試圖看看我是否可以用AVX內部函數做類似的工作。代碼基本上需要兩個數組，根據需要添加或減去它們，對結果進行平方，然後將所有這些方塊相加在一起。下面是一個使用上證所內部函數的代碼的略微簡化的版本： float chiList[4] __attribute__((aligned(16))); float chi = 0.0

2熱度

3回答

Clang，檢測源代碼端的-mavx編譯參數

當我使用GCC並設置命令行參數-mavx時，編譯器會自動在源代碼中定義__AVX__。這種方式我可以檢測項目是否使用AVX指令構建，如果不能回退到另一個代碼路徑。有沒有辦法與Clang做同樣的事情？感謝，克里斯托夫

2熱度

1回答

使用SIMD內在函數進行高效的行列轉換

我是SIMD編程的初學者。我想處理我的數據如下：考慮我有4個SIMD變量（__m128i）與數據如下： __m128i a = {a1, a2, a3, a4} __m128i b = {b1, b2, b3, b4} __m128i c = {c1, c2, c3, c4} __m128i d = {d1, d2, d3, d4} 現在我想如下初始化熙： __m128i x1 = {

-2熱度

1回答

AVX計算的問題：我可以運行avx2代碼嗎？

我一直在使用英特爾的SSE指令，並獲得了很好的性能提升，最近我嘗試使用AVX指令。問題是：我可以編譯我的avx說明，但我無法運行它們。這些指令是： __m256i* avx1 = (__m256i*)vct1; __m256i* avx2 = (__m256i*)vct2; __m256i* avx3 = (__m256i*)vct3; __m256i va0, va1, va2;

3熱度

1回答

GCC生成SSE指令代替AVX

我稱爲GCC這樣的： $ gcc -I/usr/include/SDL2 -D_REENTRANT -Ibuild -I. -S -fverbose-asm -O2 -m64 -mpc64 -mfpmath=both -fipa-pta -ftree-loop-linear -floop-interchange -floop-strip-mine -floop-block -ftree-loop-

1熱度

2回答

C++：英特爾SIMD內在類成員的初始化

我不明白，爲什麼評論和註釋掉線不產生相同的結果（GCC的Linux與C++ 11標誌啓用）： #include "immintrin.h" typedef __m256 floatv; struct floatv2{ public: //floatv2(const float f):x(_mm256_setzero_ps() + f), y(_mm256_setzero_p

1熱度

2回答

矢量化平方和殘餘與沒有內在

我試圖說服GCC（4.8.1）或鐺（3.4）向量化上的常春藤橋處理器下面代碼GCC /鐺： #include "stdlib.h" #include "math.h" float sumsqr(float *v, float mean, size_t n) { float ret = 0; for(size_t i = 0; i < n; i++) { re

1熱度

2回答

使用SSE/AVX在Ivy Bridge上進行最大SIMD整數乘法？

有人能告訴我怎樣才能算出32位無符號整數乘法的最大數量我可以通過SSE/AVX使用SIMD在Ivy Bridge CPU上同時完成的最大數量？我知道AVX確實有用於乘法的256位寄存器，但是這是用於浮點的（AVX2引入了256位整數寄存器）。因此，我不太確定使用浮點寄存器進行整數乘法（如果可能的話）是否會更好？此外，我不確定它是否僅僅關注寄存器的數量，還是我需要查看CPU的端口。看起來像端口0

5熱度

3回答

流內在降低性能

我正在玩_mm_stream_ps內在，我在理解其性能方面遇到了一些麻煩。這裏是我工作的代碼片段... 流版本： #include <stdio.h> #include <stdint.h> #include <stdlib.h> #include <omp.h> #include <immintrin.h> #define NUM_ELEMENTS 10000000L sta