我正在測試插入原子加法操作到優化陣列縮減內核中以測量性能影響的效果。我無法理解結果。我測試過五個不同的內核: 0 - fully optimized reduction kernel as provided in samples/6_Advanced/reduction/reduction_kernel.cu
1 - optimized reduction kernel as described
我試圖模擬一個長度爲N(在10k和3M之間變化)的序列,該序列由具有n 1和s 0的向量表示,其中N =的n + S。 我想將它縮小爲c(137,278,21271,124162,...)形式的向量,其中數字是原始向量中連續1的個數。因爲我需要做這個〜100,000次的模擬我正在做,我正在尋找儘可能高效的方法! 謝謝! Martin Martin
這是我之前的問題(text file reduction with randomization in Python)的後續。正在修改運行多個減少,但只有第一個輸出文件包含減少,以下3個文件是零大小。這必須是明顯的東西我沒有看到... #!/usr/bin/env python
import random
import sys
from itertools import chain, grou
我剛剛開始與CUDA,並試圖圍繞CUDA減少算法包裹我的大腦。就我而言,我一直試圖獲得兩個矩陣的點積。但是對於只有大小爲2的矩陣,我得到了正確的答案。對於任何其他大小的矩陣,我錯了。 這只是測試,所以我保持矩陣大小非常小。只有大約100塊,所以只有1塊可以滿足所有需求。 任何幫助將不勝感激。謝謝! 這裏是常規代碼 float* ha = new float[n]; // matrix a
flo