我在努力尋找有關的一般HPC集羣的平均硬件利用率的全面報告。 Google或Facebook提供了各種數據集,以瞭解他們的雲硬件利用情況,但是有沒有類似的報告/數據集供我從HPC中心引用或查看。HPC工作的研究和硬件利用率報告
我的重點是看他們是否通過粗糧資源管理器一樣SLURM,或扭矩運行尾如何動態的,長期的工作會受到影響。我知道這兩個資源管理器都支持細粒度執行,但它們不提供像Mesos或Yarn這樣的資源管理器的全面API。
我在努力尋找有關的一般HPC集羣的平均硬件利用率的全面報告。 Google或Facebook提供了各種數據集,以瞭解他們的雲硬件利用情況,但是有沒有類似的報告/數據集供我從HPC中心引用或查看。HPC工作的研究和硬件利用率報告
我的重點是看他們是否通過粗糧資源管理器一樣SLURM,或扭矩運行尾如何動態的,長期的工作會受到影響。我知道這兩個資源管理器都支持細粒度執行,但它們不提供像Mesos或Yarn這樣的資源管理器的全面API。
不是很多HPC中心發佈他們使用的詳細,公開報道。英國的國家高性能計算設備通常是例外,它們提供了大量有關其歷史使用的數據。
目前的服務,射手,在公佈2014年月度和季度數據(包括使用),以當前日期:
http://www.archer.ac.uk/about-archer/reports/
以前的服務,赫克託具有可從2007-2014類似的數據:
http://www.hector.ac.uk/about-us/reports/
而在這之前的服務,HPCx,擁有從2002-2010的數據:
http://www.hpcx.ac.uk/projects/reports/
這應該會給你大約15年的數據檢查!
根據定義,HPC力求達到最大利用率。保持資源的繁忙,排滿整個工作崗位,保持健康積壓。 Resoruce /數據中心使用情況,這取決於工作負載的類型。它是內存還是計算,還是IO密集型。和其他任何東西一樣,在構建HPC集羣/環境時會有一個折衷。因此,一般來說,並不是每個資源或整個集羣都會被充分利用。有改進的房間。 Mesos與傳統HPC調度程序的比較是正確的。 Mesos是兩級調度程序。它更全面,但這並不能阻止人們將其與Slurm一起使用,或者直接與特定的mpi一起使用。這就是爲什麼我問你同樣的問題,使HPC數據中心更適應不同工作負載的原因之一。 What HPC can learn from DevOps,它可以使用傳統調度器之上的自定義腳本「例如路由器,負載傳感器」,可以在一定程度上定製和優化HPC資源的利用率。 Univa和IBM LSF都有一些可以實現這一點的商業優勢。
好,我明白,利用在HPC一般是指保持隊列忙,但我想知道是否有研究顯示像我們在谷歌的論文像CPI2,或它們的集羣公佈的數據集看到實際的硬件利用率:HTTPS: //github.com/google/cluster-data –
謝謝。他們已經足夠開始玩了。我只在Hector數據集中看到它有一些系統利用率的顯示。看起來真的很傷心,對於科學集羣,我們只看到分配的百分比作爲工作的利用率,而不是真正的硬件利用率。 –
通過閱讀硬件性能計數器(集羣範圍)是否有任何關於作業cpu利用率的報告? –