simd

    0熱度

    4回答

    我正在處理一些代碼,我試圖儘可能地優化它,基本上它在一定的時間限制內運行。 下使電話... static affinity_partitioner ap; parallel_for(blocked_range<size_t>(0, T), LoopBody(score), ap); ...和下​​面是指在執行什麼。 void operator()(const blocked_range<si

    3熱度

    4回答

    我正在爲使用iPhone上的SIMD單元(3GS或更高版本)的遊戲製作矢量/矩陣庫。 我該怎麼做? 我搜索這個,現在我知道了幾個選項: 加速架構(BLAS LAPACK + + ...)從蘋果(iPhone OS 4) 從ARM OpenMAX的實現庫 GCC自動矢量功能 什麼是最適合遊戲矢量/矩陣庫的方式?

    2熱度

    2回答

    我試圖按照: 項目>屬性>配置屬性> C/C++>代碼生成>啓用增強指令集 但唯一的選擇居然是 - SSE SSE2或。 謝謝。

    3熱度

    2回答

    似乎無法找到任何東西,除了64/32位的東西,當我搜查意見問題。 __asm__ { mov rbx, 0xFFFFffffFFFFffffull movq mm2, rbx } 這些2個指令後,將平方毫米寄存器根據我的xcode調試器(這是內聯彙編在C++)保留值0x30500004ffffffff。現在我是x86程序員新手,我的程序集課程是在MIPS中講授的,我之前花

    26熱度

    2回答

    我在Haskell中編寫遊戲,而且我在UI中的當前傳遞涉及很多程序生成的幾何。我目前專注於識別一個特定操作(C-ISH僞代碼)的性能: Vec4f multiplier, addend; Vec4f vecList[]; for (int i = 0; i < count; i++) vecList[i] = vecList[i] * multiplier + addend; 也

    7熱度

    2回答

    我很新來SIMD/SSE,我試圖做一些簡單的圖像過濾(模糊)。 下面的代碼用水平方向上的一個簡單的[1 2 1]加權過濾8位灰度位圖的每個像素。我一次創建16個像素的總和。 這段代碼看起來很糟糕,至少對我來說,是有很多插入/提取,它不是很優雅,可能會減慢一切。轉移時,是否有更好的方法將數據從一個區域轉換爲另一個區域? buf是圖像數據,16字節對齊。 W/H是寬度和高度,16。 __m128i *

    4熱度

    2回答

    我正在編寫多線程的高度並行應用程序。我已經寫了一個SSE加速的線程類。如果我要編寫MMX加速線程類,那麼同時運行兩個線程(一個SSE線程和一個每個內核的MMX線程)會使性能顯着提高嗎? 我認爲這樣的設置可以幫助隱藏內存延遲,但是我想在開始向它傾注時間之前確定。

    7熱度

    3回答

    通過SSE指令執行復數乘法和除法是否有利? 我知道使用SSE時,加法和減法效果會更好。有人能告訴我如何使用SSE執行復雜的乘法以獲得更好的性能嗎?

    6熱度

    5回答

    我有一些代碼在一個循環 for(int i = 0; i < n; i++) { u[i] = c * u[i] + s * b[i]; } 所以,u和b是相同的長度的矢量,並且c和s是標量。這個代碼是否適合與SSE一起使用以加速矢量化? UPDATE 我學到矢量(原來,這並不難,如果您使用內聯函數),並實現我的SSE循環。但是,在VC++編譯器中設置SSE2標誌時,我獲得的性能

    6熱度

    5回答

    我有一些代碼運行得很好,但我想讓它運行得更好。我對它的主要問題是它需要嵌套for循環。外層是用於迭代(它必須連續發生),內層是針對每個點粒子的考慮。我知道有沒有什麼我可以做外一個,但我不知道是否有優化類似的方式: void collide(particle particles[], box boxes[], double boxShiftX, double boxShiftY) {/*