我爲兩個矩陣的元素乘法構建了一個內核,但至少在我的配置中,當每個矩陣大於2GB時,我的OpenCL內核只會更快。所以我想知道,如果是因爲我的天真內核(見下文),或者是因爲元素操作的本質,這意味着元素操作不會從使用GPU中獲益。 感謝您的輸入! 內核: KERNEL_CODE = """
// elementwise multiplication: C = A .* B.
__kernel vo
我在理解GPU上的SIMT執行時遇到了一些問題。到目前爲止,我已經將這些線程放置在「warps」(例如32個線程/ warp)中。這些線程將是相同的類型,並可以並行運行(但可以獨立運行,支持&)。 我正在閱讀的書然後繼續混淆我。 'It is then up to the instruction unit to select warps that are ready to execute thei