Desktop i7-4770k @ 4GHz內核的峯值GFLOPS爲4GHz * 8(AVX)*(4 FMA)* 4個內核= 512 GFLOPS。但最新的英特爾IGP(Iris Pro 5100/5200)的峯值超過800 GFLOPS。因此,某些算法在IGP上的運行速度會更快。將內核與IGP結合在一起甚至會更好。此外,IGP不斷吃掉更多的硅。 Iris Pro 5100現在佔據了硅片的30%以上。看起來很清楚英特爾臺式機處理器的方向。但是,據我所見,英特爾IGP,除了OpenCL/OpenGL之外,大多被程序員忽略。我很想知道如何在不使用OpenCL的情況下對英特爾HD Graphics硬件進行計算(例如SGEMM)?在沒有OpenCL的情況下編程Intel IGP(例如Iris Pro 5200)硬件
添加的評論: 他們沒有英特爾對Linux上的高清顯卡和OpenCL的支持。我發現beignet這是開源嘗試至少爲Ivy Bridge HD圖形添加對Linux的支持。我沒有嘗試過。那麼開發Beignet的人可能知道如何在沒有OpenCL的情況下對HD圖形硬件進行編程。
注意:它是[GFLOPS](https://en.wikipedia.org/wiki/FLOPS),而不是[GFLOPs/s](https://en.wikipedia.org/wiki/FLOPS)。你爲什麼要乘以'8(AVX)*(4 FMA)'? –
我改爲GLOPS。 FMA同時進行乘法和加法運算,得到一個2的因子,Haswell可以同時給兩個FMA指令提供另一個2的因子。每個FMA可以執行一個AVX指令,該指令給出另一個8的因子(單個浮點)。 –
GLSL編程? DirectCompute的? PTX? –