OpenCL，這是正常執行時間嗎？

我在使用OpenCL的算法中工作，我需要測量它在並行和順序版本中的執行時間。由於這個原因，我使用的是外部循環迭代兩個代碼並測量它們的時間，但我已經獲得：OpenCL，這是正常執行時間嗎？

順序：3.06 SEGS

並行：269個SEGS

說我的代碼使用水貨版本是：

t_start=clock();     /* Start measuring time */ 

for(i=0;i<=N; i++) // N is really big, around a million, but is the same for both versions 
{ 

fitness = 0; 

ret = clEnqueueNDRangeKernel(command_queue, kernel, 1, NULL, &global_item_size, NULL, 0, NULL, NULL); 

ret = clEnqueueReadBuffer(command_queue, vdistance, CL_TRUE, 0, siz_mem_distance_code, distance_code, 0, NULL, NULL); 

ret = clEnqueueReadBuffer(command_queue, vsumatorio, CL_TRUE, 0,siz_mem_sumatorio, sumatorio, 0, NULL, NULL); 

fitness = (1/(*sumatorio)) + (*distance_code/12) + ((pow(*distance_code,2))/4) + ((pow(*distance_code,3))/6); 

} 

t_finish=clock();     /* End measuring time */

這段代碼之前，我已經創建/初始化所有我們需要運行使用的OpenCL（平臺，devide，背景，隊列，緩存，內核程序的事， ...），並在此代碼後，我釋放一切。我已經檢查過，這個時間的增加是由於在每次迭代中讀入兩個變量（distance_code和sumatorio），但是我必須這樣做，因爲我必須獲得適應值，這是一個順序指令，只能在內核已完成，所以......你能幫我嗎？我究竟做錯了什麼？

我希望能夠正確解釋我自己，謝謝。

注：我只與CPU一起工作。

來源

2013-01-17 Fran

'global_item_size'有多大？ – matthias

global_item_size = 64 – Fran

啓動這麼多內核的開銷超過了僅對64個數據項進行並行循環的好處。您需要重新編寫問題，以便在大批量數據上啓動相對較少的內核。在這種情況下，如果OpenCL編譯器生成適當的向量化機器碼，您會看到相對於順序版本的改進。

此外，如果生成的代碼包含任何向量指令，則應該檢查AMD's CodeXL或英特爾的Offline Compiler。

來源

2013-01-18 07:53:04 matthias

非常感謝您的回答matthias！我正在使用英特爾的離線編譯器來檢查我的內核，但是使用矢量指令來生成矢量化代碼，不是嗎？ – Fran

那麼，在最好的情況下，編譯器將用SSE或AVX指令而不是普通的x86指令生成優化的SIMD代碼。看看這個來自英特爾的[文檔]（http://software.intel.com/zh-cn/blogs/2011/09/26/autovectorization-in-intel-opencl-sdk-15）。 – matthias

OpenCL，這是正常執行時間嗎？

回答

相關問題