warp-scheduler

0熱度

1回答

我的印象是，計算能力1.x GPU中的（單個）warp調度程序每4個週期發送一個指令每個warp，並且由於算術管道的延遲是24個週期，因此可以通過使用6個主動扭曲在任何時候。對於計算能力2.1GPU，編程指南提到「在每個指令發佈時間，每個調度程序發出兩條獨立的指令」，而How does the CUDA warp scheduler issue 2 instructions at a time

5熱度

2回答

塊，線程，warpSize

關於如何選擇#blocks & blockSize已經有很多討論，但我仍然缺少一些東西。我的很多顧慮解決這個問題：How CUDA Blocks/Warps/Threads map onto CUDA Cores?（爲了簡化討論，有足夠的perThread & perBlock內存內存限制是不是一個問題在這裏。） kernelA<<<nBlocks, nThreads>>>(varA,constB

104熱度

2回答

CUDA塊/扭曲/線程如何映射到CUDA核心上？

我一直在使用CUDA幾個星期，但我對塊/ warps/thread的分配有些疑問。我正在從教學的角度來看（大學項目）的建築學，所以達到高峯表現並不是我關心的問題。首先，我想知道，如果我得到這些事實直：程序員編寫內核，並在線程塊的網格組織執行。將每個塊分配給流式多處理器（SM）。一旦分配，它就不能遷移到另一個SM。每個SM將自己的塊分成Warps（當前最大大小爲32個線程）。變形中的所有線

1熱度

1回答

CUDA的駐留翹曲問題

我一直在使用CUDA一個月，現在我想說清楚需要多少warps/blocks來隱藏內存訪問的延遲。我認爲這與多處理器上駐留的最大變形有關。根據CUDA_C_Programming_Guide（v-7.5）中的表13，每個多處理器駐留warp的最大值是64.然後，我的問題是：什麼是駐留warp？它是指從GPU的內存中讀取數據並準備好由SP處理的那些扭曲？或者參考能夠讀取數據的momory的warp或