avx

    7熱度

    1回答

    x86兼容加速器MIC Intel Xeon Phi中是否存在SIMD(SSE/AVX)指令? http://en.wikipedia.org/wiki/Xeon_Phi

    3熱度

    1回答

    我有我試圖加快的代碼。首先,我使用了SSE內在因素,並看到顯着的收益。我現在試圖看看我是否可以用AVX內部函數做類似的工作。代碼基本上需要兩個數組,根據需要添加或減去它們,對結果進行平方,然後將所有這些方塊相加在一起。 下面是一個使用上證所內部函數的代碼的略微簡化的版本: float chiList[4] __attribute__((aligned(16))); float chi = 0.0

    2熱度

    3回答

    當我使用GCC並設置命令行參數-mavx時,編譯器會自動在源代碼中定義__AVX__。 這種方式我可以檢測項目是否使用AVX指令構建,如果不能回退到另一個代碼路徑。 有沒有辦法與Clang做同樣的事情? 感謝, 克里斯托夫

    2熱度

    1回答

    我是SIMD編程的初學者。我想處理我的數據如下: 考慮我有4個SIMD變量(__m128i)與數據如下: __m128i a = {a1, a2, a3, a4} __m128i b = {b1, b2, b3, b4} __m128i c = {c1, c2, c3, c4} __m128i d = {d1, d2, d3, d4} 現在我想如下初始化熙: __m128i x1 = {

    -2熱度

    1回答

    我一直在使用英特爾的SSE指令,並獲得了很好的性能提升,最近我嘗試使用AVX指令。 問題是:我可以編譯我的avx說明,但我無法運行它們。這些指令是: __m256i* avx1 = (__m256i*)vct1; __m256i* avx2 = (__m256i*)vct2; __m256i* avx3 = (__m256i*)vct3; __m256i va0, va1, va2;

    3熱度

    1回答

    我稱爲GCC這樣的: $ gcc -I/usr/include/SDL2 -D_REENTRANT -Ibuild -I. -S -fverbose-asm -O2 -m64 -mpc64 -mfpmath=both -fipa-pta -ftree-loop-linear -floop-interchange -floop-strip-mine -floop-block -ftree-loop-

    1熱度

    2回答

    我不明白,爲什麼評論和註釋掉線不產生相同的結果(GCC的Linux與C++ 11標誌啓用): #include "immintrin.h" typedef __m256 floatv; struct floatv2{ public: //floatv2(const float f):x(_mm256_setzero_ps() + f), y(_mm256_setzero_p

    1熱度

    2回答

    我試圖說服GCC(4.8.1)或鐺(3.4)向量化上的常春藤橋處理器下面 代碼GCC /鐺: #include "stdlib.h" #include "math.h" float sumsqr(float *v, float mean, size_t n) { float ret = 0; for(size_t i = 0; i < n; i++) { re

    1熱度

    2回答

    有人能告訴我怎樣才能算出32位無符號整數乘法的最大數量我可以通過SSE/AVX使用SIMD在Ivy Bridge CPU上同時完成的最大數量? 我知道AVX確實有用於乘法的256位寄存器,但是這是用於浮點的(AVX2引入了256位整數寄存器)。因此,我不太確定使用浮點寄存器進行整數乘法(如果可能的話)是否會更好? 此外,我不確定它是否僅僅關注寄存器的數量,還是我需要查看CPU的端口。看起來像端口0

    5熱度

    3回答

    我正在玩_mm_stream_ps內在,我在理解其性能方面遇到了一些麻煩。 這裏是我工作的代碼片段... 流版本: #include <stdio.h> #include <stdint.h> #include <stdlib.h> #include <omp.h> #include <immintrin.h> #define NUM_ELEMENTS 10000000L sta