2011-06-16 60 views
2

我試圖在ATI HD 6990卡(Cayman體系結構)上使用AMD-APP-SDK 2.4實現GEMM實現。本地數據存儲與科曼計算結構中的紋理緩存進行科學計算

其中一種優化技巧是使用阻塞/平鋪。

在其實現中,如果我們將子矩陣存儲在共享本地內存中,還是在使用紋理緩存時速度更快,它會更快嗎?如果可能的話,請說明原因。

請同時指出哪個更容易實現。

謝謝。

P.S.我只希望它具有單精度,如果它很重要!

注:子矩陣的大小不是問題,但我覺得,因爲它越大越好。要考慮的唯一因素是,如果內存單元是128位(4單精度),那麼塊大小應該是4的倍數。

回答

1

賽普拉斯芯片用於5800系列Radeon。 6900系列使用Cayman核心,它有幾個重要的區別,最值得注意的是它是VLIW4體系結構,而不是早期核心中使用的VLIW5配置。

與往常一樣,知道哪種方法更快的唯一確定方法是對其進行基準測試。特別是,由於您沒有提供關於子矩陣大小的信息,因此很難說它們最適合的位置。

+1

oohh!我的錯。我通過編輯來糾正它。是的,基準總是存在的,但是我在這裏發佈了這個問題來了解它的理論方面。 – Divij 2011-06-17 04:38:36