索引與SSE陣列

假設我有一個數組：索引與SSE陣列

uint8_t arr[256];

和元件包含16個字節，

x_1, x_2, ... x_16

我想有效地填充一個

__m128i x

新__m128i元件

__m128i y

與來自arr取決於值x值，使得：

y_1 = arr[x_1] 
y_2 = arr[x_2] 
    . 
    . 
    . 
y_16 = arr[x_16]

的命令來實現，這將基本上可以從一個非連續組存儲器位置加載的寄存器。我對看到這樣一個命令的文檔有一個痛苦的模糊記憶，但現在找不到它。它存在嗎？在此先感謝您的幫助。

2010-12-19 Travis

修復了代碼格式化;在將來，請記住，如果要將文本塊格式化爲代碼，則必須用4個空格將其縮進，並在其之前保留一個空行（或者只需選中它並按'0101'按鈕）即可。 – 2010-12-19 16:24:34

@Matteo：它不再是'101010'。它變成了'{}'... – thkala 2010-12-19 16:51:21

@thkala：呃，我沒有注意到，一般我只是做CTRL-K或從我的編輯器複製粘貼，我可以添加4個空格按TAB（我可以受益於語法突出顯示）。 – 2010-12-19 16:58:09

SIMD體系結構中的這種功能稱爲加載/存儲分散/聚集。不幸的是，SSE沒有它。來自英特爾的未來SIMD架構可能會有這種 - 命運多ill的Larrabee處理器就是一個例子。現在，雖然您只需要設計數據結構，但不需要這種功能。

請注意，您可以通過使用例如_mm_set_epi8：

y = _mm_set_epi8(arr[x_16], arr[x_15], arr[x_14], ..., arr[x_1]);

儘管這當然會產生一堆標量代碼來加載你的y向量。如果你在任何性能關鍵的循環之外進行這種操作，這很好，例如，作爲循環之前的初始化的一部分，但是在循環內部，它很可能是性能殺手。

2010-12-19 18:10:24

感謝您的回答。「聚集/散佈」顯然是我期待的術語。經過簡短的檢查，看起來像這樣的功能在GPU上可用。有關這些方面的建議？ – Travis 2010-12-19 22:56:45

即使在GPU上，這也可能是效率低下的，因爲從不同的存儲器地址加載/存儲將不可避免地意味着更多的總線週期。 – 2010-12-20 00:15:42

回答