當運行併發副本時&內核操作:
如果我的內核runTime是dataCopy操作長度的兩倍,我會在每次內核運行時獲得2個副本嗎?
我看到的流示例顯示1:1關係。 (拷貝時間=內核運行時間。)我想知道當有什麼不同時會發生什麼。每次內核啓動時是否總是有一個拷貝操作(最大)?或者複製操作是否獨立於內核啓動運行?即如果運行&複製時間以這種方式工作,那麼我可能會爲每次內核啓動完成5次複製操作。
(我試圖找出有多少複製操作到內核發射前排隊)併發:短副本,長內核
一對一:(一次複製=內核運行時)
< --stream1Copy - > < --stream2Copy - >
.............................. < -stream1Kernel->
二對一:(複製時間= 1/2內核運行時間)
< -stream1Copy-> < -stream2Copy-> < -stream3Copy->
............................ < ---------- stream1Kernel --------- --->
我的視覺探查的理解是,這是隻爲贏環境。有沒有類似的工具nonWin環境? – Doug
是的,在Linux環境中,您可以運行使用'nvvp'命令視覺分析器或者如果你有CUDA 5,您可以通過運行'nsight'命令,從Eclipse的nsight版工具中查看。您可能需要查看我在答案中鏈接的文檔,特別是[本節](http://docs.nvidia.com/cuda/profiler-users-guide/index.html#visual-profiler)。 –