warp-scheduler

    0熱度

    1回答

    我的印象是,計算能力1.x GPU中的(單個)warp調度程序每4個週期發送一個指令每個warp,並且由於算術管道的延遲是24個週期,因此可以通過使用6個主動扭曲在任何時候。 對於計算能力2.1GPU,編程指南提到「在每個指令發佈時間,每個調度程序發出兩條獨立的指令」,而How does the CUDA warp scheduler issue 2 instructions at a time

    5熱度

    2回答

    關於如何選擇#blocks & blockSize已經有很多討論,但我仍然缺少一些東西。我的很多顧慮解決這個問題:How CUDA Blocks/Warps/Threads map onto CUDA Cores?(爲了簡化討論,有足夠的perThread & perBlock內存內存限制是不是一個問題在這裏。) kernelA<<<nBlocks, nThreads>>>(varA,constB

    104熱度

    2回答

    我一直在使用CUDA幾個星期,但我對塊/ warps/thread的分配有些疑問。 我正在從教學的角度來看(大學項目)的建築學,所以達到高峯表現並不是我關心的問題。 首先,我想知道,如果我得到這些事實直: 程序員編寫內核,並在線程塊的網格組織執行。 將每個塊分配給流式多處理器(SM)。一旦分配,它就不能遷移到另一個SM。 每個SM將自己的塊分成Warps(當前最大大小爲32個線程)。變形中的所有線

    1熱度

    1回答

    我一直在使用CUDA一個月,現在我想說清楚需要多少warps/blocks來隱藏內存訪問的延遲。我認爲這與多處理器上駐留的最大變形有關。 根據CUDA_C_Programming_Guide(v-7.5)中的表13,每個多處理器駐留warp的最大值是64.然後,我的問題是:什麼是駐留warp?它是指從GPU的內存中讀取數據並準備好由SP處理的那些扭曲?或者參考能夠讀取數據的momory的warp或