添加通道中的所有元素

是否有一個內部允許添加通道中的所有元素？我使用氖將8個數字相乘，我需要對結果進行求和。下面是一些意譯代碼來顯示目前我在做什麼（這也許可以被優化）：添加通道中的所有元素

int16_t p[8], q[8], r[8]; 
int32_t sum; 
int16x8_t pneon, qneon, result; 

p[0] = some_number; 
p[1] = some_other_number; 
//etc etc 
pneon = vld1q_s16(p); 

q[0] = some_other_other_number; 
q[1] = some_other_other_other_number; 
//etc etc 
qneon = vld1q_s16(q); 
result = vmulq_s16(p,q); 
vst1q_s16(r,result); 
sum = ((int32_t) r[0] + (int32_t) r[1] + ... //etc);

是否有「更好」的方式來做到這一點？

來源

2012-08-29 NOP

像這樣的東西應該工作得最佳（注意：未測試）

const int16x4_t result_low = vget_low_s16(result); // Extract low 4 elements 
const int16x4_t result_high = vget_high_s16(result); // Extract high 4 elements 
const int32x4_t twopartsum = vaddl_s16(result_low, result_high); // Extend to 32 bits and add (4 partial 32-bit sums are formed) 
const int32x2_t twopartsum_low = vget_low_s32(twopartsum); // Extract 2 low 32-bit partial sums 
const int32x2_t twopartsum_high = vget_high_s32(twopartsum); // Extract 2 high 32-bit partial sums 
const int32x2_t fourpartsum = vadd_s32(twopartsum_low, twopartsum_high); // Add partial sums (2 partial 32-bit sum are formed) 
const int32x2_t eightpartsum = vpadd_s32(fourpartsum, fourpartsum); // Final reduction 
const int32_t sum = vget_lane_s32(eightpartsum, 0); // Move to general-purpose registers

來源

2012-08-29 05:27:48

'const int32x2_t eightpartsum = vpadd_s32（fourpartsum）'不起作用。我認爲它應該是'const int64x1 eightpartsum = vpaddl_s32（fourpartsum）'。儘管如此，我改變它，它編譯，但它實際上比我以前的方法慢得多.... – NOP

我不認爲你會看到很多改善，除非這是一個嚴密的循環。我已經測試過這個，並且在100000的循環中，我總體上獲得了大約40％的改進。使用霓虹內在函數也很重要，使用最近的編譯器非常重要。我用過gcc 4.7.1。 – auselen

vpadd_s32（fourpartsum）應該是vpadd_s32（四partsum，fourpartsum）。我編輯了這個帖子來修復它。 –

如果您所指定的新手臂64位架構，然後ADDV就是適合你的指令。

下面是代碼的外觀。

qneon = vld1q_s16(q); 
result = vmulq_s16(p,q); 
sum = vaddvq_s16(result);

就是這樣。只需一條指令就可以總結向量寄存器中的所有通道。

不幸的是，這個指令在舊的32位arm架構中沒有特色。

來源

2015-07-10 05:05:42 user3249055

添加通道中的所有元素

回答

相關問題