vtune

    1熱度

    2回答

    我正在使用一個愛好程序來教導自己高性能計算技術。 我的電腦有一個帶有32 GB內存和Microsoft vs2010 C編譯器的免費版本的Intel Ivy Bridge Core i7 3770處理器。 64位程序需要大約20 GB的內存,因爲它有5個4 GB查找表(以下爲bytevecM ... bytevecX)。這個搜索程序的內部循環被寫入作爲一個單獨的C文件(因爲我可能要與彙編版本後取代

    11熱度

    1回答

    我用pthread編寫了一個使用生產者 - 消費者模型的多線程程序。 當我使用英特爾VTune分析器來分析我的程序時,我發現生產者和消費者花費大量時間在pthread_mutex_unlock上。我不明白爲什麼會發生這種情況。我認爲線程可能會等待很長時間才能獲得互斥鎖,但釋放互斥鎖應該很快,對吧? 以下快照來自Intel VTune。它顯示了消費者試圖從緩衝區獲取項目的代碼,以及每個代碼行消耗的時

    6熱度

    2回答

    我有一個例程,在小矩陣(50-100 x 1000元素)上執行一些MKL調用以適合模型,然後我調用不同的模型。在僞碼: double doModelFit(int model, ...) { ... while(!done) { cblas_dgemm(...); cblas_dgemm(...); ... dgesv(...);

    3熱度

    2回答

    我正在爲我的linux應用程序熱點收集使用英特爾(R)VTune™放大器XE 2013更新5(內部版本274450),但報告稱「[任何已知模塊外部]」消耗大部分時間,所以我想獲得更多有關未知模塊的信息。 當我讀到vtune放大器的發行說明時,它說「熱點列表可能包含」在內核早於2.6.20(200233501)的系統上的任何已知模塊「之外」,但是我的Linux內核是「2.6 .32「,有關這個的任何

    6熱度

    1回答

    我正試圖優化此代碼。 static lvh_distance levenshtein_distance(const std::string & s1, const std::string & s2) { const size_t len1 = s1.size(), len2 = s2.size(); std::vector<unsigned int> col(len2+1)

    0熱度

    1回答

    我在32-nm Intel Westmere處理器上運行Linux。我對性能計數器DTLB思念數據看似矛盾的數據表示擔憂。我跑的兩個實驗與隨機存取存儲器的測試程序(單線程)如下: 實驗(1):我計數的DTLB未命中使用以下性能計數器 DTLB_MISSES.WALK_COMPLETED((比賽49H,UMASK 02H) Experimt(2)I計數的DTLB錯過通過總結如下兩個計數器值 MEM_

    7熱度

    1回答

    我想優化我在linux平臺上用C++編寫的代碼。爲此,我使用英特爾VTune性能分析器分析器。我正在識別熱點,它成功運行其指定的路徑的二進制可執行文件,然後它給出錯誤:「數據無法顯示,沒有可用於數據的視點」。 任何人都可以幫助排序這個錯誤。

    1熱度

    2回答

    繼我的前兩個問題How to improve memory performance/data locality of 64-bit C/intel assembly program和Using C/Intel assembly, what is the fastest way to test if a 128-byte memory block contains all zeros?之後,我進一步

    3熱度

    1回答

    我想使用Vtune Profiler API來剖析Xeon Phi上運行的代碼(Linux,使用卸載執行)以查看執行的指令數量,L1緩存未命中的數量等。但是我找不到解釋如何使用這個庫的地方。 哪裏可以找到Linux文件庫文件和包含文件?如何編寫代碼來剖析在Xeon Phi上運行的短代碼? 我希望是這樣的: //this code will be executed on host processor

    1熱度

    2回答

    我使用Intel Vtune Amplifier XE 2013來分析在多核CPU上運行的並行程序,特別是使用OpenCL編寫並在Xeon Phi中執行。我想知道Vtune對結果的精確解釋應該如何,即: 它是單線程或整個內核收集的性能計數器的值嗎? (假設CPU中有許多內核,許多線程可以同時在內核上執行,如Xeon Phi)。 Vtune是如何在多核CPU上進行採樣的?它是否在單個核心上進行採樣並