neon

0熱度

2回答

我是Neon彙編程序設計新手，我開發了Neon Intrinsic版本的視頻邊緣檢測算法，結果獲得了2倍的性能。現在我想試試Neon assembly - 我想查看編譯器爲Neon Intrinsic生成的彙編代碼，並嘗試我自己的Neon彙編。我的問題是如何查看編譯器爲Android NDK中的Neon Intrinsic優化代碼生成的彙編代碼？當我試圖 objdump的-d kalifilte

3熱度

1回答

具有溢出的ARM霓虹燈浮點整數轉換行爲

溢出情況下如何定義ARM霓虹燈浮點到整數轉換指令vcvt.s32.f32和vcvt.u32.f32的行爲？你能依賴我在特定處理器上觀察到的行爲，即結果是否飽和？任何官方文件的鏈接，高度讚賞。

3熱度

2回答

在C++中高性能庫之間切換

我正在編寫一些C++代碼來定位各種平臺。這包括x86，x64和ARM。我目前在x64上使用英特爾IPP和MKL（用於SSE），並期望爲ARM添加NEON庫。有沒有一種標準的方式來分支特定的圖書館和最小的依賴和大驚小怪？我目前使用Visual Studio 2008年或2012年我最初的想法是隻#ifdef來圍繞特定呼叫和測試X86，X64，ARM等像： void addVectors(int *

1熱度

1回答

ARM NEON Intrinsics。 vmulq_lane_f32做什麼？

在谷歌搜索的最好我能找到的 float32x4_t vmulq_lane_f32 (float32x4_t, float32x2_t, const int) Form of expected instruction(s): vmul.f32 q0, q0, d0[0] 其中尋找到霓虹燈程序員指南表明，它是矢量標量乘法。但也有其他的API正是爲了這個目的。 float32x4_t vmulq_

0熱度

1回答

ARM NEON加速了這些opencv函數嗎？

我目前在支持ARM NEON的基於android的設備上使用OpenCV。OpenCV版本是2.4.9。使用諸如cvCanny，cvDilate，cvResize，cvtColor等函數，並且我想加快它們的速度。我想知道的是，如果這些函數已經寫入NEON體系結構可以加速的形式。我如何知道這些函數的原始代碼以及NEON加強的其他功能？有沒有關於優化的更多建議？謝謝！

1熱度

1回答

對ARM架構使用SIMD等效（NEON）

我在考慮使用面向NEON指令集的計算來開發unity3d遊戲。這是可能的單聲道C＃.net？我知道單聲道可以使用SIMD進行SSE兼容的cpus，但是有沒有辦法使用NEON來實現ARM cpu？

1熱度

1回答

用寄存器值替換常量的組件

我不是裝配專家，所以這可能很簡單。如果我有一個期望的恆定值作爲像這樣的參數的指令： VQSHRN.U32 d0,q0,#16 我怎樣才能在寄存器中使用值來替換#16，如r0？這條指令甚至可以讓你這樣做，但我還沒有找到有關這種能力的文檔。有沒有一個正常的方法來做到這一點？萬一這個問題，我正在編寫ARMv7程序集並將其與C++代碼內聯。謝謝。

0熱度

1回答

具有複數的霓虹內在函數

我對複數進行了大量計算（通常是一個數組，其中包含一個由兩個浮點數組成的結構來表示im和re;請參見下文），並希望用NEON C intrinsics加速它們。這將是真棒，如果你可以給我如何加快事情是這樣一個例子： for(n = 0;n < 1024;n++,p++,ptemp++){ // get cir_abs, also find the biggest point (value and l

2熱度

2回答

分段錯誤當我在Linux上運行使用Hard Float選項構建的Neon代碼時

我有一個代碼，其中一個函數使用氖彙編優化。我用gcc構建它，並在Cortex A9上運行（硬浮動圖像）。當我使用硬浮點選項構建非優化代碼（純c無程序集）時，如： -mapc -march = armv7 -a -mtune = cortex-a9 -mfloat-abi = hard -mfpu = neon，它工作正常。當我介紹我的彙編代碼並將它與下列標誌進行彙編： -march = arm

3熱度

2回答

使用NEON指令

比較操作我有下面的代碼 if (i < 0) { i = i + 1 } 使用NEON矢量指令，我需要進行上述操作。如何將NEON寄存器值與0進行比較並執行上述計算？