sse

2熱度

1回答

我想用Eigen編寫一些上證所代碼，有些行爲沒有我。鑑於代碼： #ifndef EIGEN_DONT_VECTORIZE // Not needed with Intel C++ Compiler XE 15.0 #define EIGEN_VECTORIZE_SSE4_2 #define EIGEN_VECTORIZE_SSE4_1 #define EIGEN_VECTORIZE_SSS

2熱度

1回答

_declspec（align（16））不會將指針對齊到16字節

所以我嘗試使用SSE函數__mm_load_128，我對SSE fo非常新，如果我在某處犯了一些愚蠢的錯誤，請原諒我。這裏是Visual Studio中的代碼 void one(__m128i *arr, char *temp) { // SSE needs 16 byte alignment. _declspec (align(16)) __m128i *tmp = (_

5熱度

1回答

高效（在Ryzen上）將__m256的奇數元素提取到__m128中的方法？

是否有將AVX寄存器的64位組件的高/低32位組件重新打包到SSE寄存器的內在或另一種有效方法？使用AVX2的解決方案是可以的。到目前爲止我用下面的代碼，但探查說，這是對Ryzen 1800X慢： // Global constant const __m256i gHigh32Permute = _mm256_set_epi32(0, 0, 0, 0, 7, 5, 3, 1); // ..

0熱度

1回答

SSE：沒有看到使用_mm_add_epi32加速

我期望SSE比不使用SSE更快。我是否需要添加一些額外的編譯器標誌？難道我沒有看到加速，因爲這是整數代碼而不是浮點數？調用/輸出 $ make sum2 clang -O3 -msse -msse2 -msse3 -msse4.1 sum2.c ; ./a.out 123 n: 123 SSE Time taken: 0 seconds 124 milliseconds vect

0熱度

1回答

在Android中使用SiftGPU（關於ndk，cmake和SSE）

最近我試圖在Android中使用SiftGPU。我正在使用Linux。所以，首先我下載NDK並使用下面的代碼來獲得一個獨立的工具鏈： sudo sh ./build/tools/make-standalone-toolchain.sh --verbose --platform=android-15 --install-dir=/home/YourUserName/Downloads/my-tool

1熱度

1回答

矢量模乘法

的我有一個函數： void Func(const int * a, const int * b, size_t size, int p, int * c) { for (size_t i = 0; i < size; ++i) c[i] = (a[i]*b[i])%p; } 執行該功能爲整數的數組許多模乘法。所有整數都是正數。而且我需要改善它的表現。我想到了SS

0熱度

2回答

我可以將未對齊的大小傳遞給_mm_malloc嗎？

The documentation I've found so far on _mm_malloc()相當稀少。特別是，我不知道如果我通過一個size參數不是align的倍數會發生什麼。它是UB嗎？或者它會分配align的下一個較大倍數的字節數？

0熱度

1回答

SSE4內存差別位置比較

我自己的實現咬我回來試圖優化與SSE4以下時： std::distance(byteptr, std::mismatch(byteptr, ptr + lenght, dataptr).first) 這比較byteptr和數據，並返回其中字節不匹配的索引。我真的需要原始速度，因爲我正在處理這麼多的內存，RAM速度已經是一個瓶頸。在SSE4上獲取和比較16個字節會提供一個速度提升，因爲在時間上

3熱度

1回答

atan2近似11位尾數在x86（與SSE2）和ARM（與vfpv4 NEON）

我試圖以11位精度尾數實現快速atan2（浮點數）。atan2實現將用於圖像處理。所以用SIMD指令（impl瞄準x86（帶有SSE2）& ARM（帶有vpfv4 NEON））可能會更好。現在，我使用切比雪夫多項式近似（https://jp.mathworks.com/help/fixedpoint/examples/calculate-fixed-point-arctangent.html）

2熱度

1回答

SSE內在 - _mm_and_ps古怪行爲

下面一段代碼： __m128 a = _mm_setr_ps(1, 2, 3, 4); __m128 b = _mm_set1_ps(2); __m128 res = _mm_and_ps(a, b); cout << a[0] << " " << a[1] << " " << a[2] << " " << a[3] << endl; cout << b[0] << " " << b[1]