Hello Everyone ....
我是新來的opencl並試圖探索更多@它。local_work_size對性能的影響以及爲什麼它是
openCL程序中local_work_size的工作方式以及它在性能方面的重要性。
我工作的一些圖像處理算法中和我的OpenCL內核,我給 作爲
size_t local_item_size = 1;
size_t global_item_size = (int) (ceil((float)(D_can_width*D_can_height)/local_item_size))*local_item_size; // Process the entire lists
ret = clEnqueueNDRangeKernel(command_queue, kernel, 1, NULL,&global_item_size, &local_item_size, 0, NULL, NULL);
和相同的內核,當我改變
size_t local_item_size = 16;
藏在心裏相同。
我的表現快了約4-5倍。
您可以將local_item_size設置爲NULL;而OpenCL將爲工作組選擇「最佳」大小,但不考慮所使用的本地內存。 –