2
我試圖在ATI HD 6990卡(Cayman體系結構)上使用AMD-APP-SDK 2.4實現GEMM實現。本地數據存儲與科曼計算結構中的紋理緩存進行科學計算
其中一種優化技巧是使用阻塞/平鋪。
在其實現中,如果我們將子矩陣存儲在共享本地內存中,還是在使用紋理緩存時速度更快,它會更快嗎?如果可能的話,請說明原因。
請同時指出哪個更容易實現。
謝謝。
P.S.我只希望它具有單精度,如果它很重要!
注:子矩陣的大小不是問題,但我覺得,因爲它越大越好。要考慮的唯一因素是,如果內存單元是128位(4單精度),那麼塊大小應該是4的倍數。
oohh!我的錯。我通過編輯來糾正它。是的,基準總是存在的,但是我在這裏發佈了這個問題來了解它的理論方面。 – Divij 2011-06-17 04:38:36