我的pyopencl內核程序啓動時全局大小爲(512,512),我假設它將運行512x512 = 262,144次。我想在我的512x512圖像中找到函數的最小值,但我不想返回262,144個浮點數到我的CPU來計算最小值。我想運行另一個內核(可能在隊列中等待)來查找所有262,144像素的最小值,然後將該浮點數發送到CPU。我認爲這會更快。我的等待內核的全局大小應該是(1,1),?我希望在我調用下一個內核之前,使用mf.COPY_HOST_PTR創建的大型浮點數262,144緩衝區不會穿過GPU/CPU總線。從pyopencl內核返回一個結果
感謝 添