2014-01-25 124 views
0

我有一個崩潰的服務器。服務器運行少量(3-5個)VMware機器。當我啓動一個新的虛擬機時,它有時會崩潰。 syslog或vmware日誌中沒有消息。我在控制檯上看到的是啓動消息。沒有系統日誌消息的Linux崩潰

該系統具有32Gb RAM。每個虛擬機使用2-4Gb。我懷疑內存問題,但memtest86的全面運行並沒有顯示任何問題。

關於如何捕捉事故原因的任何建議?

+0

使用也'dmesg',看看其它文件下'在/ var /日誌/'....和嘗試的密集計算(例如像一個內核編譯'使-j 6' ....)直接在服務器上(不通過虛擬機);幾年前,我在沒有* memtest86的筆記本電腦上發現了內存問題*找到它們......(只是借用了一些其他內存來查明);也看溫度(用'yacpi') –

回答

1

您可以使用內核模塊'netconsole'將內核printk消息發送到遠程系統日誌服務器。

然後,您可以檢查遠程系統日誌服務器中的日誌消息,如果機器崩潰,則發生事件。

簡介:通過UDP

該模塊的日誌printk的內核消息讓 問題的調試,其中盤日誌記錄失敗和串行控制檯是不切實際的。

它可以內置或作爲模塊使用。作爲一個內置的網絡控制檯,net​​console在NIC卡後立即初始化,並儘可能快地啓動指定接口 。雖然這不允許 捕獲早期內核恐慌,但它確實捕獲了大部分啓動過程。檢查內核文件的詳細資料: https://www.kernel.org/doc/Documentation/networking/netconsole.txt