avx

    1熱度

    1回答

    我正在爲我的目的評估OpenCL。它發生,我認爲你不能假設它的工作外的開箱在Windows或Mac的原因是: Windows需要在OpenCL驅動程序(其中,當然,可以安裝) MacOS的僅支持在MacOS的OpenCL> = 10.6 所以我必須代碼FPU/SSE/AVX代碼和OpenCL分別產生兩個二進制文件:一個沒有和一個與OpenCL的支持。 這將是更好的,如果我能在編譯時成SSE/AVX

    6熱度

    1回答

    我找不到任何文檔定義YMM寄存器如何由調用者和被調用者處理。 要注重我的問題,這裏是我想知道: 其中YMM寄存器必須由被調用方返回給調用之前恢復? 由於Linux和Windows中XMM寄存器存在差異,我假設YMM寄存器也不遵循相同的規則。每個操作系統有哪些規則? 編輯: 感謝下面的答案,我能夠清除在Win64提到的文檔中的答案。我敢肯定,Linux遵循類似的規則: "... The YMM r

    4熱度

    1回答

    我正在查看AVX programming reference。 new Haswell instructions包括一些熱切期待的「聚集」負載。但是,我無法弄清楚索引數據項上的對齊限制。參考文獻的第2.5節「內存對齊」似乎應該列出表2.4或2.5之一中的各種VGATHER*指令......但它沒有。背景:雖然收集指令支持的數據大小爲4和8個字節,但我的應用程序可以通過將相鄰的16位數據值集合加載到

    6熱度

    3回答

    我正在使用基於GCC 4.6.1的Windows 64位目標的MinGW64版本。我正在玩新的英特爾AVX指令。我的命令行參數是-march=corei7-avx -mtune=corei7-avx -mavx。 但是在分配堆棧上的局部變量時,我開始遇到分段錯誤錯誤。 GCC使用對齊的移動VMOVAPS和VMOVAPD來移動__m256和__m256d,並且這些指令需要32字節對齊。但是,Wind

    44熱度

    4回答

    我一直在使用英特爾的SSE內部函數,並獲得了很好的性能提升。因此,我期望AVX內部函數能夠進一步加速我的程序。不幸的是,直到現在,情況並非如此。可能我正在犯一個愚蠢的錯誤,所以如果有人能幫助我,我將非常感激。 我使用Ubuntu 11.10和g ++ 4.6.1。我編譯了一個程序(見下文),同時 g++ simpleExample.cpp -O3 -march=native -o simpleEx

    11熱度

    9回答

    更新:請閱讀代碼,它是不是在一個INT 計數位是否有可能改善以下代碼的性能與一些聰明的彙編? uint bit_counter[64]; void Count(uint64 bits) { bit_counter[0] += (bits >> 0) & 1; bit_counter[1] += (bits >> 1) & 1; // .. bit_cou

    3熱度

    1回答

    微軟稱VS2010支持全套的AVX指令: http://blogs.msdn.com/b/vcblog/archive/2009/11/02/visual-c-code-generation-in-visual-studio-2010.aspx ... 在VS2010發佈,所有的AVX功能和說明是通過內在和/arch:AVX完全支持。 ... 但我找不到任何內部函數的融合乘法相加操作 http:/

    3熱度

    2回答

    這個在previous question上搭載我關於將矢量的各個元素分散到不同的存儲位置(分散操作)。我的代碼會將很多數據存儲到內存中,而這些數據不會再「長時間」訪問。我想通過使用非時間提示指令來減少所有這些商店生成的緩存污染量。但是,我不能想出一個好辦法來做到這一點。這裏是我的代碼看起來像現在的總結: __m256d src = ... // data double *dst; int ds

    4熱度

    2回答

    我試圖使用AVX固有的解壓縮指令_m256_unpacklo_ps和_m256_unpackhi_ps交錯16個浮點值。我得到的結果很奇怪,或者是因爲我不瞭解AVX應該如何解封,或者因爲某些東西不能正常工作。 我所看到的是,當我嘗試,例如,解開低位來自兩個向量,v1和v2花車,到第三,V3,我看到以下內容: 如果V1是[a b c d e f g h] 且v1 [i j k l m n o p]

    2熱度

    1回答

    我找對MD5算法的使用量化的執行情況。 我感興趣的SSE *和AVX instructions.Are有與矢量支持任何現成的庫的細節?