最佳方式

所以我想利用這個自定義RNG庫針對OpenCL： http://cas.ee.ic.ac.uk/people/dt10/research/rngs-gpu-mwc64x.html 最佳方式

庫定義的狀態結構：

//! Represents the state of a particular generator 
typedef struct{ uint x; uint c; } mwc64x_state_t;

而且爲了產生一個隨機UINT，你的狀態傳遞到下面的函數：

uint MWC64X_NextUint(mwc64x_state_t *s)

其更新狀態，所以，當你經過我t再次進入函數，序列中的下一個「隨機」數字將被生成。

爲我創造，我需要能夠同時生成隨機數不只是在不同的工作組/項目，但還可以在多個設備，我有麻煩找出最好的方式來設計這個項目。就像我應該創建每個設備/ commandqueue 1 mwc64x_state_t對象並將該狀態作爲全局變量傳遞？或者是否有可能一次爲所有設備創建1個狀態對象？還是我甚至在把它作爲一個全局變量，每個內核函數內局部聲明一個新的狀態？

圖書館還配備了這一功能：

void MWC64X_SeedStreams(mwc64x_state_t *s, ulong baseOffset, ulong perStreamOffset)

據稱是應該的RNG分成多個「流」，但包括這在我的內核使得難以置信緩慢。舉例來說，如果我這樣做了以下非常簡單：

__kernel void myKernel() 
{ 
    mwc64x_state_t rng; 
    MWC64X_SeedStreams(&rng, 0, 10000); 
}

然後內核調用變成40倍左右慢。

庫不來與作爲示例用法，但是示例代碼是一種有限的，似乎沒有是有幫助的一些源代碼。

所以如果有人熟悉OpenCL中的隨機數發生器，或者如果你已經使用了這種特殊的圖書館我以前很欣賞你的建議。

來源

2014-10-11 user1855952

的MWC64X_SeedStreams功能確實比較慢，至少在比較到MWC64X_NextUint呼叫，但這是一個嘗試一個大的全球流分割成可在可以使用許多子流大多數並行的RNG的真平行。假設您將在內核中多次調用NextUint （例如，一百或更多），但SeedStreams僅位於頂部。

這是帶有庫（mwc64x/test/estimate_pi.cpp和mwc64x/test/test_mwc64x.cl）的附帶的EstimatePi示例的註釋版本。

__kernel void EstimatePi(ulong n, ulong baseOffset, __global ulong *acc) 
{ 
    // One RNG state per work-item 
    mwc64x_state_t rng; 

    // This calculates the number of samples that each work-item uses 
    ulong samplesPerStream=n/get_global_size(0); 

    // And then skip each work-item to their part of the stream, which 
    // will from stream offset: 
    // baseOffset+2*samplesPerStream*get_global_id(0) 
    // up to (but not including): 
    // baseOffset+2*samplesPerStream*(get_global_id(0)+1) 
    // 
    MWC64X_SeedStreams(&rng, baseOffset, 2*samplesPerStream); 


    // Now use the numbers 
    uint count=0; 
    for(uint i=0;i<samplesPerStream;i++){ 
     ulong x=MWC64X_NextUint(&rng); 
     ulong y=MWC64X_NextUint(&rng); 
     ulong x2=x*x; 
     ulong y2=y*y; 
     if(x2+y2 >= x2) 
      count++; 
    } 
    acc[get_global_id(0)] = count; 
}

因此，意圖是，n應是大而成長爲大量的工作項目生長，從而samplesPerStream仍然圍繞百人以上。

如果你想在多個設備上的多個內核，那麼你需要層次的另一個層面增加了流拆分，因此，例如，如果您有：

K：可能是設備數量（上並行機）
寬：編號工作項每個設備
C：呼叫數目每工作項到NextUint

ÿ ou最終以N = K W C在所有工作項目中總共調用NextUint。如果您的設備被確定爲K = 0。（K-1），然後每個內核中，你會怎麼做：

MWC64X_SeedStreams(&rng, W*C*k, C);

然後流中的指標是：

[0    .. N) : Parts of stream used across all devices 
[k*(W*C)  .. (k+1)*(W*C)) : Used within device k 
[k*(W*C)+(i*C) .. (k*W*C)+(i+1)*C) : Used by work-item i in device k.

它如果每個內核使用的C採樣少於C個，那麼可以在必要時過度估計。

（我是圖書館的作者）。

來源

2014-10-14 13:05:58 m8pple

感謝您的信息和澄清！不幸的是，我的內核工作項目只需要對NextUint（）進行大約12次左右的調用，所以它看起來不像彌補調用SeedStreams（）的大量開銷。 – user1855952 2014-10-14 20:52:43

回答

相關問題