2008-11-12 144 views
2

大型服務器場如何正確關閉全部或部分服務器場?我在想刨和意外情況,如:服務器場關閉

  • 「我們需要關閉機架42」
  • 「我們需要做的工作功率饋送到整個街區」
  • 「停電UPS的!沒汁了!啊!「
  • 「AC關閉,空氣溫度爲125F和登山」

我感興趣的問題是人們如何處理測序,並關閉踢了整個事情。同樣,我也覺得這很容易混淆上下服務和軟件升級系統。

(在這一點上,我更要求出於好奇比什麼。)

+0

是的,我知道這是不是直接編程,但我不能想象,許多這樣的系統沒有某種程序的循環 – BCS 2008-11-12 22:18:49

回答

0

一種方法是,以反映臨時熱交換活機,假設接入是通過網絡,通過改造割接路由器將流量轉移到鏡像。該過程可以針對意外中斷自動進行。

對於計劃中的維護,有的乾脆通知其用戶,某窗口期間,系統將不可用。

冗餘電源和燃氣發電機處理大多數動力相關的問題,再次與自動故障轉移。

+0

答好有趣的信息是管理這個,但不是真的什麼我感興趣的東西。例如事情如何關閉,而不是如何避免關閉服務。 – BCS 2008-11-12 22:54:20

1

計算機可以使用很多更多的權力重新聯機比他們在跑,因爲他們把所有的盤片和風扇旋轉的,通常有啓動的所有應用程序的CPU的大量活動,等等。大多數商店都會有一系列錯綜複雜的創業公司,所以他們不會將電路最大化,而必須重新開始。如果您有一堆應用程序需要與數據庫交談,或者需要與應用程序服務器交談的一羣Web服務器,這也很重要。您通常從下往上開始,並將創業公司錯開30秒至1分鐘,具體取決於電路上有多少個盒子。

+0

我有一個包含5個HDD的盒子,啓動時每個驅動器的功率爲30W。我很高興它錯過了它或它會烤我的UPS! – BCS 2008-11-12 23:15:37

0

啊,現在我明白你的問題了。

產品如iBootBar從dataprobe可以監控和管理電力到遠程設備。智能系統可以監測每個設備的電流消耗,以驗證其在標稱限值內的運行情況。如果沒有,它可以使設備脫機並使備用在線來替代它,觀察初始浪涌並等待電力穩定下來,然後再開啓下一個設備。

0

請記住,「大型服務器農場」的設計永遠不關機,除非他們必須這樣做。這意味着它是一個可能的,但遠遠遙遠的事件,當它發生時,你真的很匆忙。將盡可能提前規劃其他用例,例如關閉機架或在電源線上工作。

當事情真的發生錯誤時,你實際上會很匆忙。

例如發電機燃料耗盡(通常他們會繼續儲備至少一整天,並有合同,以獲得時間重新提供,因此我們在這裏討論的大災變)或類似的事件,你知道這將會發生在幾小時內關閉事情。或者HVAC系統完全失效,那麼在溫度升高太多之前,您只需幾分鐘即可關閉所有設備。

我不是這裏的專家,在路障的另一端(數據中心的客戶),但我認爲他們將有系統來指揮所有他們控制的系統的關閉,他們將只需切斷其無法控制和正確關機的客戶系統的電源。

農場最終會被電再一次在一個區,每次一個機架上,當所有的系統重新聯機,並準備去滿負荷(的UPS,發電機,空調等)。 當他們有系統(即,不是顧客的人,但私人農場)的完全控制權,他們通常會帶來交流逐步向所有的電路和服務器要麼功率自動向上(如果配置的話,許多服務器甚至可以有設置像「的最大X分鐘的隨機時間後,上電」),或者將被控制通過像IPMI或類似系統的Lights-Out管理上電。