本地數據存儲與科曼計算結構中的紋理緩存進行科學計算

我試圖在ATI HD 6990卡（Cayman體系結構）上使用AMD-APP-SDK 2.4實現GEMM實現。本地數據存儲與科曼計算結構中的紋理緩存進行科學計算

其中一種優化技巧是使用阻塞/平鋪。

在其實現中，如果我們將子矩陣存儲在共享本地內存中，還是在使用紋理緩存時速度更快，它會更快嗎？如果可能的話，請說明原因。

請同時指出哪個更容易實現。

謝謝。

P.S.我只希望它具有單精度，如果它很重要！

注：子矩陣的大小不是問題，但我覺得，因爲它越大越好。要考慮的唯一因素是，如果內存單元是128位（4單精度），那麼塊大小應該是4的倍數。

2011-06-16 Divij

賽普拉斯芯片用於5800系列Radeon。 6900系列使用Cayman核心，它有幾個重要的區別，最值得注意的是它是VLIW4體系結構，而不是早期核心中使用的VLIW5配置。

與往常一樣，知道哪種方法更快的唯一確定方法是對其進行基準測試。特別是，由於您沒有提供關於子矩陣大小的信息，因此很難說它們最適合的位置。

2011-06-17 01:21:23 user57368

oohh！我的錯。我通過編輯來糾正它。是的，基準總是存在的，但是我在這裏發佈了這個問題來了解它的理論方面。 – Divij 2011-06-17 04:38:36

回答