Modulo優化

我有一個C程序，它在大型陣列上做了一些廣泛的交換操作。它在緊密的循環中有模操作。實際上，範圍[-N | N [有N的整數範圍是2的冪，它應該被換成[0，N [。Modulo優化

實施例與N = 4：-4 => 0，-3 => 1，-2 => 2，-1 => 3，0 => 0，...，3 => 3

起初，我嘗試了下面的版本1，但感到驚訝的是即使它有一個條件表達式，版本2實際上也顯着更快。

你能解釋爲什麼版本2比版本1更快爲這種特殊情況？

版本1：

#define N (1<<(3*5)) 

inline int modBitAnd(int x) 
{ 
    return (x & (N-1)); 
}

運行時間：17.1秒（對於整個程序）

版本2：

inline int modNeg1(int x) 
{ 
    return (x < 0 ? x + N : x); 
}

運行時間：14.6秒（對於整個程序）

程序在GCC 4.8.2上編譯。與-std = c99 -O3。

編輯：

這裏是我在程序的主循環：

int en(uint16_t* p, uint16_t i, uint16_t v) 
{ 
    uint16_t n1 = p[modNeg1((int)i - 1)]; 
    uint16_t n2 = p[modBitAnd((int)i + 1)]; 
    uint16_t n3 = p[modNeg1((int)i - C_WIDTH)]; 
    uint16_t n4 = p[modBitAnd((int)i + C_WIDTH)]; 
    return d(n1,v) + d(n2,v) + d(n3,v) + d(n4,v); 
} 

void arrange(uint16_t* p) 
{ 
    for(size_t i=0; i<10000000; i++) { 
     uint16_t ia = random(); // random integer [0|2^15[ 
     uint16_t va = p[ia]; 
     uint16_t ib = random(); // random integer [0|2^15[ 
     uint16_t vb = p[ib]; 
     if(en(p,ia,vb) + en(p,ib,va) < en(p,ia,va) + en(p,ib,vb)) { 
      p[ia] = vb; 
      p[ib] = va; 
     } 
    } 
}

int d(uint16_t a, uint16_t b)是距離函數例如abs((int)a-(int)b)。

這是p如何初始化：

uint16_t* p = malloc(sizeof(uint16_t)*N); 
for(unsigned i=0; i<N; i++) *p++ = i;

首先，我用modBitAnd無處不在，但發現該modNeg1是實際上可以更快的爲兩種情況下可以使用。

來源

2014-07-16 Danvil

您是否嘗試過查看編譯器生成的彙編代碼？ – Medinoc

第二個版本不能正常工作，除非你傳給它一個餘數結果，因爲它沒有模數發生 –

哪個平臺（32或64位）？此外，請[發佈完整的代碼示例]（http://meta.stackoverflow.com/a/258849/509868）或反彙編列表。 – anatolyg

第一個take a few stackshots找出時間到了哪裏。你的mod函數將獲取樣本的一小部分，但你也有兩個調用random，加上相當數量的數組索引。此外，它看起來像你有四個電話en與一些相同的參數，所以也許你的模塊化導致重複調用mod函數。

來源

2014-07-16 13:23:40

謝謝你的評論。其他地方肯定花了很多時間。但我觀察到的是，在函數'en'的兩個位置選擇'modNeg1'而不是'modBitAnd'，程序運行速度提高了20％。這是我想知道的。 – Danvil

@Danvil：我通常使用無符號整數或純位掩碼來解決帶負數的問題。無論如何，20％不是一個巨大的加速，你可能做得比這更好。 –

回答

相關問題