1
我有一些CUDA內核我想在單獨的pthreads中運行。將cuda上下文傳遞給worker pthreads
我基本上必須讓每個pthread執行,例如3個cuda內核,並且它們必須按順序執行。
我想我會嘗試傳遞每個pthread對流的引用,因此這3個cuda內核中的每一個都將在相同的流中按順序執行。
我可以使用pthread的不同上下文來工作,然後它會像平常一樣執行內核,但這似乎需要很多開銷。
那麼如何讓每個pthread在同一個環境中工作,與其他pthreads同時工作呢?
感謝