perf
是一個可以報告硬件和軟件事件的性能分析工具。我試圖用MPI應用程序運行它,以瞭解應用程序在每個內核中花費多少時間在數據傳輸和計算操作上。使用MPI應用程序運行perf
通常情況下,我會跑我的應用程序與
mpirun -np $NUMBER_OF_CORES app_name
它會催生幾個核心或可能的幾個節點。是否可以在頂部添加perf
?我試過
perf stat mpirun -np $NUMBER_OF_CORES app_name
但是,這個輸出看起來像某種聚合的mpirun。有沒有辦法從每個核心收集perf類型的數據?