avx512

    0熱度

    1回答

    我有一個__m512d內在向量,我需要他的元素的總和。有沒有簡單的方法來做到這一點?我專注於計算性能,所以我需要快速執行此操作。我對內在的知識不足以自己去做,所以我需要你的幫助。 謝謝:)

    1熱度

    1回答

    我在閱讀this關於如何使用Intel C++編譯器和Intel Knights Landing上的AVX512支持編譯C/C++代碼的文檔。 不過,我對這個部分有點困惑: -xMIC-AVX512:使用該選項生成AVX-512F,AVX-512CD,AVX-512ER和AVX-512FP。 -xCORE-AVX512:使用此選項可生成AVX-512F,AVX-512CD,AVX-512BW,AV

    -1熱度

    1回答

    我正在編程一個完美的程序來並行化多媒體擴展。該程序包括轉換圖像,所以我通過一個矩陣,我修改其中的每個像素。爲了加快速度,我使用了多媒體擴展: 起初我使用了SSE3擴展並實現了2.5加速。接下來,我編程擴展了使用AVX擴展(雙倍大小矢量)的sse算法,但是我沒有得到SSE3的收益。用SSE執行程序的時間或多或少與AVX相同。 這裏是SSE和AVX,分別代碼的總結: for(i=0; i<lim;

    0熱度

    1回答

    英特爾工程師寫道,我們應該使用VZEROUPPER/VZEROALL以避免在所有處理器上昂貴的過渡到非VEX狀態,包括未來的至強處理器,但不是在至強融核:https://software.intel.com/pt-br/node/704023 人們還測量並發現VZEROUPPER和VZEROALL是昂貴的上騎士降落: 36在64位模式(30個時鐘在32位模式)兩者接收指令的時鐘週期。 查看上面的鏈

    4熱度

    2回答

    當VM遷移到不同的硬件時,是否可以通知在Google Compute VM上運行的應用程序? 我是一個大量使用矢量指令(SSE/AVX/AVX-512)的應用程序(HMMER)的開發人員。我正在開發的版本在啓動時探測其硬件,以確定哪些向量指令可用,並選擇最佳集合。 我們一直在考慮在Google Compute和其他雲引擎上運行我們的程序,一個問題是,如果虛擬機在運行我們的程序時從一臺物理機遷移到另

    0熱度

    1回答

    根據說明文件,從gcc 4.9開始支持AVX-512指令集,但是我有gcc 4.8。目前,我有這樣的代碼用於加的內存塊(它的保證是小於256個字節,所以沒有溢出後顧之憂): __mm128i sum = _mm_add_epi16(sum, _mm_cvtepu8_epi16(*(__m128i *) &mem)); 現在,翻翻文件,如果我們有,比方說,四字節遺留下來的,我可以使用: __mm

    2熱度

    1回答

    Xeon-Phi騎士登陸核心有一個快速exp2指令vexp2pd(內部_mm512_exp2a23_pd)。英特爾C++編譯器可以使用編譯器附帶的短矢量數學庫(SVML)矢量化exp函數。具體而言,它稱爲功能__svml_exp8。 然而,當我通過調試步驟我沒有看到__svml_exp8使用vexp2pd指令。這是許多FMA操作的複雜功能。據我所知,vexp2pd比exp不太準確,但如果我用-fp

    4熱度

    1回答

    我試着寫與至強融核平臺KNC一些指令內聯彙編代碼,使用k1om-mpss-linux-gcc編譯器。我想在我的代碼中使用一個掩碼寄存器來向量化我的計算。這是我的代碼: #include <stdio.h> #include <stdlib.h> #include <string.h> #include <sys/time.h> #include <assert.h> #include <

    3熱度

    1回答

    _mm512_storenrngo_pd和_mm512_storenr_pd有什麼區別? _mm512_storenr_pd(無效*公噸,__m512d V): 商店壓縮雙精度(64位)從V 浮點元素存儲器地址公噸用非讀取暗示到處理器。 我不清楚,什麼沒有讀取提示的意思。這是否意味着它是非緩存一致寫入。這是否意味着重用更昂貴或者不一致? _mm512_storenrngo_pd(無效*公噸,__m

    7熱度

    2回答

    我希望對zmm 0-31寄存器組的四字單元執行整數算術運算,並保留這些運算產生的進位位。看來這隻有在數據在通用寄存器組中進行處理時纔有可能。 因此,我想從zmm 0-31寄存器之一複製信息到其中一個通用寄存器。在處理通用寄存器中的64位數據後,我想將數據返回到來自同一個QuadWord位置的原始zmm 0-31寄存器。我知道我可以從通用寄存器RAX使用命令移動數據到AVX512寄存器zmm26四字