我目前正在向OpenCL遷移一個相當不錯的匹配追蹤算法(這是較大圖像處理算法的一部分)。處理OpenCL內核中的臨時矩陣和私有內存
該算法使用一些內部矩陣和向量進行處理。其中一半大小相當小(少於10列),但另一半則可能因輸入矩陣(n * n,2n * n等)而變得相當大。
所有內部矩陣的定義取決於輸入矩陣。
鑑於標準中沒有本地分配功能,我通過將內存塊從全局內存映射到工作項的私有內存來解決內存問題。在上下文設置期間,我確保塊不重疊,以便在運行時確保數據一致性。
這種方法對我來說並不合適。這感覺更像是一個黑客。
你們有沒有遇到過這種情況?你的解決方案是什麼?
好的。你可以在那裏遷移嗎?或者我應該在SO上重新發布? –
我覺得主持人可以;我會標記它,以便引起他們的注意。 –
Paul,你能否澄清你說你是從全局映射到私有內存塊的含義?你的意思是你在你的函數中聲明瞭一個數組,並且從作爲內核參數傳遞的全局指針中將數據複製到它中? –