simd

2熱度

2回答

我試圖從Objective-C的一些代碼轉換爲雨燕運行到這樣的情況： import simd let a = int2(1, 0) let b = int2(0, 1) print(a + b) // COMPILER FAILS print(a &+ b) // SUCCESS 爲什麼改變完全可以理解的語法這個神祕的符號的目的是什麼？

1熱度

2回答

System.Numerics.Vector中元素的總和.NET 4.6中的<T> 4.6

我無法弄清楚如何獲得System.Numerics.Vector類型向量中元素的總和。 double sum(System.Numerics.Vector<double> vect) { // Something like // double sum = 0; // foreach e in vect { sum += e; } // return sum

6熱度

1回答

.NET JIT編譯器在什麼條件下執行自動向量化？

新的RyuJIT編譯器是否曾生成向量（SIMD）CPU指令，以及何時？備註：System.Numerics命名空間包含的類型允許顯式使用Vector操作，這些操作可能會或可能不會生成SIMD指令，具體取決於CPU，CLR版本，JITer版本，無論是否直接編譯爲本機代碼。這個問題是關於什麼時候非向量代碼（例如在C＃或F＃中）將產生SIMD指令的具體問題。

0熱度

2回答

加速大量數組相關的計算，visual studio

我想知道什麼最好的辦法可能是加速大量的數組計算。可以說我有這樣的場景： int template_t[] = {1, 2, 3, 4, 5, 6, ...., 125}; int image[3200][5600]; int template_image[3200][5600]; for(int i = 0; i < 3200; i++) { for(int j = 0; j <

7熱度

2回答

SSE/AVX寄存器的非零字節索引

如果一個SSE/AVX寄存器的值是所有字節都是0或1，那麼有什麼辦法可以有效地獲得所有非零元素的索引嗎？例如，如果xmm值是 | r0 = 0 | r1 = 1 | r2 = 0 | r3 = 1 | r4 = 0 | r5 = 1 | r6 = 0 | ... | r14 = 0 | r15 = 1 | 結果應該是（1,3,5，...，15）。結果應放置在另一個_m128i變量或char [1

1熱度

1回答

有條件地用AVX2選擇恆定值

我正在尋找一種無分支方式來根據AVX2值的特定條件選擇AVX2常數。什麼我現在做僞代碼： condition = _mm256_cmp_gt(value, limit); result = _mm256_or(_mm256_and(condition, constant_a), _mm256_andnot(condition, constant_b)); 有什麼比這更有效

0熱度

1回答

AVX2 __m256i const * mem_addr在加載指令中對比AVX

我無法加載或存儲AVX2內在函數指令，就像我之前在AVX中所做的那樣。沒有錯誤，只是警告，並且它在運行時不執行加載/存儲指令。其他AVX2指令正常工作，但無法從內存加載。如下。 AVX： float t[MAX][MAX]; row0 = _mm256_load_ps(&t[i][j]); _mm256_store_ps(&t[j][i], row0); AVX2： const int3

1熱度

2回答

複製__m256i數據類型

我有興趣將__m256i數據類型（在英特爾內部函數中用於AVX指令）的數據複製到新的__m256i中。我知道我可以將數據從AVX寄存器存儲到內存，然後從內存中，我可以加載數據到一個新的寄存器。但是，有沒有更簡單的方法（即專用指令），我可以直接「克隆」寄存器，而無需先使用操作將其存儲到內存中，然後再次加載它？我想，我可以添加一個空的寄存器到我的寄存器，然後得到一個新的__m256i類型回來，可以

2熱度

1回答

強制執行SIMD數據類型的成員對齊

我有一個看起來像這樣的NEON SIMD數據類型的類： class Change { void clear() { m_d = vdupq_n_s32(0); } private: uint32x4 m_d; }; 使用鐺爲ARM，當我在大多數Android設備上運行此編譯，它只是工作正常。在某些設備上但呼籲clear()原因SIG_BUS，對

0熱度

1回答

如何去交錯SSE中的圖像通道

有沒有什麼辦法可以在霓虹燈上去交錯32bpp圖像通道類似下面的代碼。 //Read all r,g,b,a pixels into 4 registers uint8x8x4_t SrcPixels8x8x4= vld4_u8(inPixel32); ChannelR1_32x4 = vmovl_u16(vget_low_u16(vmovl_u8(SrcPixels8x8x4.val[0])