nvprof

    0熱度

    1回答

    我是nvprof的新用戶,當我嘗試使用nvprof來剖析我的代碼時出現錯誤。我在代碼中添加了一些OpenACC指令。我使用的cuda工具包是Cuda8.0。我的代碼是用fortran90 + OpenMPI編寫的。我使用16個核心進行並行計算。下面是我用來提交代碼的腳本: #!/bin/bash -l # #SBATCH --nodes=1 #SBATCH --ntasks=16 #SBA

    0熱度

    1回答

    我編寫了一些使用JCuda來執行某些CUDA內核的Java代碼。我想介紹一下這個應用程序,以瞭解流是如何重疊以及什麼的。我可以使用cuda事件調用(如cudaEventElpasedTime)來獲取內核的執行時間,但我不知道如何獲取同一個內核的開始和結束時間戳。 我知道nvprof可以生成這樣的結果並顯示時間表,但是我沒有找到用Java應用程序運行nvprof的方法。 編輯:現在我明白如何使用nv

    1熱度

    1回答

    從命令行使用nvprof --metrics測量帶寬的正確選項是什麼?我正在使用flop_dp_efficiency獲得峯值FLOPS的百分比,但手冊中的帶寬測量似乎有很多選項,我並不真正瞭解我正在測量的內容。例如dram_read,dram_write,gld_read,gld_write對我來說都是一樣的。另外,我應該通過假設兩者同時發生來報告bandwdith作爲讀寫吞吐量的總和嗎? 編輯:

    0熱度

    1回答

    我試圖從命令行中運行R. 「nvprof」 這裏是我正在做它: ./nvprof --print-GPU-跟蹤--devices 0 - -analysis-metrics -export-profile/home/xxxxx /%p R 這給了我一個R提示符並且我寫了R代碼。我也可以用Rscript來做。 的問題,我看到的是,當我給--analysis度量選項它給了我很多類似 == == 440

    0熱度

    1回答

    我正在使用具有2個GPU的遠程計算機,以便執行具有CUDA代碼的Python腳本。爲了找到我可以提高代碼性能的地方,我試圖使用nvprof。 調用nvprof --profile-child-processes ./myscript.py的時候,雖然,我已經在我的代碼,我只是想使用遠程機器上的2層GPU的一集,具有相同ID的過程啓動。每個GPU的。 有沒有任何論點我可以給nvprof爲了只使用一個

    0熱度

    1回答

    運行在NVIDIA視覺探查一個簡單的應用程序顯示錯誤: Encountered invalid option : --openacc-profiling ======== Use "nvprof --help" to get more information. 任何GPU applicatiion我嘗試分析得到了同樣的錯誤。 我試圖取消選中「啓用OpenACC分析」選項並得到相同的錯誤。 版

    1熱度

    1回答

    在nvprof中,我可以看到每個cuda執行流的流ID(0,13,15等) 給定一個流變量,我希望能夠打印出流ID 。目前我找不到任何API來執行此操作,並將cudaStream_t轉換爲int或uint不會產生合理的ID。 sizeof()表示cudaStream_t是8個字節。

    4熱度

    1回答

    我看到,nvprof可以剖析內核中觸發器的數量(使用下面的參數)。當我瀏覽文檔時(這裏是http://docs.nvidia.com/cuda ......它說flop_count_sp是「由非謂詞線程執行的單精度浮點運算的數目(加法,乘法,乘法 - 累加和特殊)。每次乘法累加運算貢獻2計數。」 然而,當我運行的flop_count_sp結果(這應該是flop_count_sp_add + flo

    7熱度

    1回答

    我試圖在配有NVIDIA TITAN X和CUDA 8.0的系統中剖析OpenCL應用程序a.out。 如果是CUDA應用程序,nvprof ./a.out就足夠了。但是我發現這對OpenCL應用程序不起作用,並顯示消息「沒有對內核進行配置」。 直到CUDA 7.5,我成功使用COMPUTE_PROFILE=1繼this。不幸的是,文檔中提到「使用環境變量COMPUTE_PROFILE的命令行分析

    0熱度

    1回答

    是否可以使用nvprof來計算CUDA內核執行次數(即啓動了多少個內核)? 現在當我運行nprof我所看到的是: ==537== Profiling application: python tf.py ==537== Profiling result: Time(%) Time Calls Avg Min Max Name 51.73% 91.294us 20 4.5640us