在我的CUDA程序中,我看到通信時間內不同運行(高達50%)之間的巨大差異,其中包括主機到設備和設備,以便通過PCI Express爲固定內存託管數據傳輸時間。我怎樣才能解釋這種變化?當PCI控制器和內存控制器忙於執行其他PCIe傳輸時會發生這種情況嗎?任何見解/參考非常感謝。 GPU是Tesla K20c,主機是AMD Opteron 6168,12個內核運行Linux操作系統。 PCI Express版本是2.0。如何解釋PCIe總線上的性能差異?
1
A
回答
2
您正在執行此操作的系統是一個NUMA系統,這意味着您的主機中的兩個分立CPU(Opteron 6168在一個包中有兩個6核CPU)中的每一個都有自己的內存控制器,每個CPU內存與託管CUDA設備的PCI-e控制器之間的HyperTransport跳數不同。
這意味着,根據CPU關聯性,運行帶寬測試的線程對主機內存和GPU可能有不同的延遲。這可以解釋你看到的時間差異
相關問題
- 1. 如何解釋差異值
- 2. PCIe和QPI之間的性能和架構差異是什麼?
- 3. 的Python解釋差異
- 4. Subversion:如何解釋差異結果?
- 5. 解釋在訪問不同的Android設備上的SharedPreferences時的性能差異
- 6. 是尾巴呼叫優化所有解釋此性能差異
- 7. 性能差異
- 8. 性能差異
- 9. Easeljs模式 - 解釋差異
- 10. 解釋MSBuild性能彙總輸出
- 11. FindByIdentity - 性能差異
- 12. CFQuery性能差異?
- 13. 解釋代碼執行的差異
- 14. 解釋querySelectorAll和$$之間的差異
- 15. 解釋foo和\(FOO \)之間的差異
- 16. 請解釋下列內容的差異
- 17. 如何解釋鉻的性能結果
- 18. STRING(MAX)的性能差異?
- 19. 如何使用差異表的Prolog的解釋
- 20. 如何解釋gcc vs nmake中的這些差異?
- 21. 你如何解釋這段代碼的輸出差異?
- 22. 如何解釋Date構造函數中的差異?
- 23. 請解釋一下像素差異?
- 24. 溢出CSS屬性瀏覽器解釋差異
- 25. 差異相對於性能
- 26. Pro * C性能差異
- 27. Z3:差異邏輯性能
- 28. 蟒蛇 - 性能差異
- 29. Android Webview性能差異
- 30. 拉姆達性能差異?
你使用的是什麼操作系統,它的GPU是顯示器還是計算專用設備? – talonmies
操作系統是Linux,主機系統是AMD Opteron 6168.GPU是計算專用設備。我還用這些信息更新了這篇文章。 – Tania
多少個處理器?只有一個? – talonmies