dynamic-parallelism

2熱度

1回答

我正在嘗試編譯和鏈接動態內核，並在GK110上與CUDA驅動程序API一起使用。我編譯在Visual Studio中與重定位裝置代碼標記和compute_35，sm_35的.CU源文件到PTX文件，然後的CUDA接頭增加了cudadevrt.lib（至少它試圖根據鏈接器調用）。當我在ptx .obj上做一個cuModuleLoad時，它說不支持的設備代碼。還有一個.device-link.obj

0熱度

1回答

並行化來自CUDA設備函數/內核的方法

我已經有一個已經並行化的CUDA內核，它執行一些需要頻繁插值的任務。所以這是一個內核 __global__ void complexStuff(...) 它調用一次或多次該插補設備功能： __device__ void interpolate(...) 插值算法做了WENO插在連續三個維度。這是一個高度可並行化的任務，我迫切希望並行化！很明顯，通過使用<<<...>>>語法從主機代碼調

1熱度

1回答

CUDA - 如何使線程在內核中等待它的孩子

我想實現一個非常簡單的合併排序使用CUDA遞歸（對於cm> 35）技術，但我找不到方法來告訴父線程以因爲cudaEventSynchronize（）和cudaStreamSynchronize（）僅是主機，所以同時啓動它的子項並等待其子項計算。 __syncthread（）不會歸檔所需的效果，因爲父項的下一行只應在子項完成所有計算後才執行。 __global__ void simple_merge

0熱度

2回答

CMake生成一個針對較新設備的MSVC CUDA項目

我的電腦有一個GTX 580（計算能力2.0）。我想編譯一個使用動態並行性的CUDA源代碼，這是計算能力3.5中引入的一項功能。我知道我將無法在我的GPU上運行該程序，但是，應該可以在我的機器上編譯此代碼。我假設這是因爲我可以毫無問題地編譯使用3.5功能的CUDA示例。這些示例帶有「手動生成」的Visual Studio項目（我猜）。我相信我的問題是CMake。我使用CMake生成一個Vis

0熱度

1回答

Nvidia Jetson TK1開發板 - Cuda計算能力

我對這個部署套件印象非常深刻。這張卡似乎不是購買新的CUDA卡，而是需要新的主板等。它的規格說它具有CUDA計算能力3.2。 AFAIK動態並行性和更多附帶cm_35，cuda計算能力3.5。此卡是否支持開普勒架構的動態並行性和HyperQ功能？

2熱度

3回答

開普勒CUDA動態並行和線程發散

開普勒的dynamic parallelism很少有關於這項新技術的描述，這是否意味着在同一個warp中線程控制流散度問題得到了解決？它允許recursion和從設備代碼執行內核，這是否意味着可以同時執行不同線程中的控制路徑？

0熱度

1回答

動態並行 - 啓動許多小內核很慢

我正在嘗試使用動態並行來改進我在CUDA中的算法。在我最初的CUDA解決方案中，每個線程計算每個塊通用的數字。我想要做的是首先啓動一個粗略的（或低分辨率）內核，其中線程只計算一次公共值（就像每個線程代表一個塊一樣）。然後每個線程創建一個1塊（16x16線程）的小網格，併爲其傳遞公共值啓動一個子內核。從理論上講，它應該更快，因爲它可以節省許多冗餘操作。但實際上，解決方案的工作非常緩慢，我不知道爲什麼