0
我在前面的帖子中討論過CUDA中的減少算法(比如在一系列元素上求和和最大化),但是使用動態並行性,它們有可能以不同的方式實現。是否有更高效的實現可以從內核中調用?有動態並行性的內核可以調用還原算法嗎?
我在前面的帖子中討論過CUDA中的減少算法(比如在一系列元素上求和和最大化),但是使用動態並行性,它們有可能以不同的方式實現。是否有更高效的實現可以從內核中調用?有動態並行性的內核可以調用還原算法嗎?
是否有更高效的實現可以從內核中調用?
CUB提供了與動態並行性兼容的CUDA簡化原語,即可以在內核中調用該原語。
太好了!這正是我正在尋找的! – shaoyl85
你是否也知道任何可以並行計算多個k選擇的庫,例如並行1000000個k選擇,每個庫都可以找到10000個元素中的k個最大元素 – shaoyl85