dynamic-parallelism

    2熱度

    1回答

    我正在嘗試編譯和鏈接動態內核,並在GK110上與CUDA驅動程序API一起使用。 我編譯在Visual Studio中與重定位裝置代碼標記和compute_35,sm_35的.CU源文件到PTX文件,然後的CUDA接頭增加了cudadevrt.lib(至少它試圖根據鏈接器調用)。當我在ptx .obj上做一個cuModuleLoad時,它說不支持的設備代碼。還有一個.device-link.obj

    0熱度

    1回答

    我已經有一個已經並行化的CUDA內核,它執行一些需要頻繁插值的任務。 所以這是一個內核 __global__ void complexStuff(...) 它調用一次或多次該插補設備功能: __device__ void interpolate(...) 插值算法做了WENO插在連續三個維度。這是一個高度可並行化的任務,我迫切希望並行化! 很明顯,通過使用<<<...>>>語法從主機代碼調

    1熱度

    1回答

    我想實現一個非常簡單的合併排序使用CUDA遞歸(對於cm> 35)技術,但我找不到方法來告訴父線程以因爲cudaEventSynchronize()和cudaStreamSynchronize()僅是主機,所以同時啓動它的子項並等待其子項計算。 __syncthread()不會歸檔所需的效果,因爲父項的下一行只應在子項完成所有計算後才執行。 __global__ void simple_merge

    0熱度

    2回答

    我的電腦有一個GTX 580(計算能力2.0)。 我想編譯一個使用動態並行性的CUDA源代碼,這是計算能力3.5中引入的一項功能。 我知道我將無法在我的GPU上運行該程序,但是,應該可以在我的機器上編譯此代碼。我假設這是因爲我可以毫無問題地編譯使用3.5功能的CUDA示例。這些示例帶有「手動生成」的Visual Studio項目(我猜)。 我相信我的問題是CMake。我使用CMake生成一個Vis

    0熱度

    1回答

    我對這個部署套件印象非常深刻。這張卡似乎不是購買新的CUDA卡,而是需要新的主板等。 它的規格說它具有CUDA計算能力3.2。 AFAIK動態並行性和更多附帶cm_35,cuda計算能力3.5。此卡是否支持開普勒架構的動態並行性和HyperQ功能?

    2熱度

    3回答

    開普勒的dynamic parallelism很少有關於這項新技術的描述,這是否意味着在同一個warp中線程控制流散度問題得到了解決? 它允許recursion和從設備代碼執行內核,這是否意味着可以同時執行不同線程中的控制路徑?

    0熱度

    1回答

    我正在嘗試使用動態並行來改進我在CUDA中的算法。在我最初的CUDA解決方案中,每個線程計算每個塊通用的數字。我想要做的是首先啓動一個粗略的(或低分辨率)內核,其中線程只計算一次公共值(就像每個線程代表一個塊一樣)。然後每個線程創建一個1塊(16x16線程)的小網格,併爲其傳遞公共值啓動一個子內核。從理論上講,它應該更快,因爲它可以節省許多冗餘操作。但實際上,解決方案的工作非常緩慢,我不知道爲什麼