所有, 從「NVIDIA CUDA編程指南2.0」第5.1.2.1節: 「聚結上的設備與計算能力爲1.2和更高」CUDA:內存交易規模的計算能力爲1.2或更高版本
「尋找記憶該段包含最低編號的活動線程所請求的地址,對於8位數據,段大小爲32個字節,對於16位數據爲64個字節,對於32位,64位和128位數據,則爲128個字節。因爲每個half-warp有16個線程,如果所有的線程都訪問8-bit數據,那麼每個half-warp的總大小應該是16 * 8-bit = 128-bit = 16 bytes 。而「指南」說「8位數據的32字節」。似乎有一半帶寬被浪費了。我的理解是否正確?
感謝 Deryk
這怎麼解釋64位的16位數據? (16 * 16/8 = 32) – 2011-03-18 07:44:00