我對cuda的調度系統有幾個疑問。CUDA如何安排線程
答:當我使用例如foo < < < 255,255 >>()函數,卡內實際發生了什麼?我知道每個SM從上級接收一個要安排的塊,並且每個SM負責安排其傳入的BLOCK,但是哪一部分執行?例如,如果我有8個SM,每個SM包含8個小CPU,則上級負責安排剩餘的255 * 255 - (8 * 8)個線程?
B.什麼是可以定義的最大線程的限制?我的意思是foo<<<X, Y>>>();
x,y =?
C.關於最後一個例子,一個塊內可以有多少個線程?我們可以說,我們有更多的塊/線程,執行速度會更快嗎?
感謝您的幫助