0
我的應用程序啓動了數百個發送給SGE的子進程。由於哪些工作失敗,其中很少會佔用大量內存。 我需要一些方法來監視來自主進程的客戶端的內存使用情況,並重新啓動/重新提交給具有更高內存要求的網格,以防出現此類作業故障。 我已經聽說過有關失蹤心跳算法的一些要求,但我並不是很瞭解他們。 這裏的專家可以幫助我找到一個很好的解決方案嗎?我的應用程序是Linux/Solaris上的C++應用程序。客戶機丟失心跳
由於 魯奇
我的應用程序啓動了數百個發送給SGE的子進程。由於哪些工作失敗,其中很少會佔用大量內存。 我需要一些方法來監視來自主進程的客戶端的內存使用情況,並重新啓動/重新提交給具有更高內存要求的網格,以防出現此類作業故障。 我已經聽說過有關失蹤心跳算法的一些要求,但我並不是很瞭解他們。 這裏的專家可以幫助我找到一個很好的解決方案嗎?我的應用程序是Linux/Solaris上的C++應用程序。客戶機丟失心跳
由於 魯奇