另一個帶寬相關問題。我預計設備到主機的帶寬和主機到設備的帶寬是相似的,但我發現這兩者之間存在顯着差異。考慮到兩者遵循相同的路線,所以有效帶寬應該是相同的,不是嗎?該測試平臺由兩個插座上的12個Intel Westmere CPU,4個帶4個PCIe Gen2 Express插槽的Tesla C2050 GPU組成。使用NVidia代碼示例中的bandwidthtest程序。 CUDA:HtoD和DtoH帶寬之間的差異
從主機和設備做cudamemCpy的開銷是多少?
另一個帶寬相關問題。我預計設備到主機的帶寬和主機到設備的帶寬是相似的,但我發現這兩者之間存在顯着差異。考慮到兩者遵循相同的路線,所以有效帶寬應該是相同的,不是嗎?該測試平臺由兩個插座上的12個Intel Westmere CPU,4個帶4個PCIe Gen2 Express插槽的Tesla C2050 GPU組成。使用NVidia代碼示例中的bandwidthtest程序。 CUDA:HtoD和DtoH帶寬之間的差異
從主機和設備做cudamemCpy的開銷是多少?
首先,我會說那兩條曲線都是相似。我可以誠實地說,我從未在任何系統上看到對稱PCI-e帶寬 - 包括CUDA和圖形(OpenGL/D3D)測試,所以我不認爲這是什麼東西(特別是這個小差異)應該關心你。
與您的其他PCI-e帶寬問題一樣,答案與此類似 - 驅動程序可能會針對不同類型和大小的傳輸使用不同的策略,試圖獲得最高吞吐量。
實際吞吐量取決於許多因素,包括GPU的類型,以及使用中的主機芯片組上的,特別是。
謝謝你的回答....我總是看到HtoD帶寬比DtoH更小。 – Sayan
有趣的問題。對於我的M2050,我似乎得到了類似的結果,而對於我的S1070,結果卻相反。結果非常相似 - 你也是 - 非常相似,但是我也想知道差異在哪裏。 – Patrick87