2013-12-19 31 views
0

我遇到這個問題:錯誤:從Linux進程mmsbox中出現錯誤的頁面狀態。我們使用3個來自亞馬遜運行此內核的相同服務器:內核錯誤:進程中的頁面狀態不良msmsbox

Linux版本3.4.73-64.112.amzn1.x86_64(mockbuild @ gobi-build-31003)(gcc版本4.6.3 20120306(Red Hat 4.6.3- 2)(GCC))#1 SMP Tue Dec 10 01:50:05 UTC 2013

這在我們的生產服務器上發生了兩個月的幾次。所有3臺服務器在上次發生類似負載的同時做了幾乎相同的工作,發生了全部3臺服務器,其中只有一臺服務器出現故障。剩下的兩個確實有效。

其他時間我們有一天4次崩潰,他們正在下降,重新啓動後工作得很好。

這似乎很隨機,我不知道從哪裏開始。

我在網上搜索,我看到自從3.2.0版本,這是衆所周知的問題內核也發現有人報告在內核3.8.x同樣的問題

下面是回溯我們從系統日誌中獲得。

Dec 13 06:16:39 mmsc-04 kernel: [6139473.982158] BUG: Bad page state in process mmsbox pfn:42862 
Dec 13 06:16:39 mmsc-04 kernel: [6139473.982178] page:ffffea00010a1880 count:2 mapcount:0 mapping:ffff8800208ea450 index:0x0 
Dec 13 06:16:39 mmsc-04 kernel: [6139473.982185] page flags: 0x10000000000083c(referenced|uptodate|dirty|lru|private) 
Dec 13 06:16:39 mmsc-04 kernel: [6139473.982197] Modules linked in: sunrpc ipv6 binfmt_misc scsi_mod crc32c_intel microcode ext4 mbcache jbd2 crc16 dm_mirror dm_region_hash dm_log dm_mod [last unloaded: scsi_wait_scan] 
Dec 13 06:16:39 mmsc-04 kernel: [6139473.982224] Pid: 32246, comm: mmsbox Not tainted 3.4.62-53.42.amzn1.x86_64 #1 
Dec 13 06:16:39 mmsc-04 kernel: [6139473.982231] Call Trace: 
Dec 13 06:16:39 mmsc-04 kernel: [6139473.982242] [<ffffffff8110a21f>] bad_page+0x9f/0xf0 
Dec 13 06:16:39 mmsc-04 kernel: [6139473.982248] [<ffffffff8110b947>] get_page_from_freelist+0x707/0x820 
Dec 13 06:16:39 mmsc-04 kernel: [6139473.982256] [<ffffffff813e6019>] ? schedule+0x29/0x70 
Dec 13 06:16:39 mmsc-04 kernel: [6139473.982264] [<ffffffff813e514d>] ? schedule_hrtimeout_range_clock+0x14d/0x170 
Dec 13 06:16:39 mmsc-04 kernel: [6139473.982271] [<ffffffff8110bbee>] __alloc_pages_nodemask+0x18e/0x900 
Dec 13 06:16:39 mmsc-04 kernel: [6139473.982280] [<ffffffff8131ced8>] ? skb_copy_datagram_iovec+0x68/0x280 
Dec 13 06:16:39 mmsc-04 kernel: [6139473.982288] [<ffffffff81050917>] ? local_bh_enable_ip+0x27/0xa0 
Dec 13 06:16:39 mmsc-04 kernel: [6139473.982294] [<ffffffff813e6f89>] ? _raw_spin_unlock_bh+0x19/0x20 
Dec 13 06:16:39 mmsc-04 kernel: [6139473.982302] [<ffffffff8131329a>] ? release_sock+0xfa/0x120 
Dec 13 06:16:39 mmsc-04 kernel: [6139473.982312] [<ffffffff81097b42>] ? futex_wait_setup+0xd2/0xf0 
Dec 13 06:16:39 mmsc-04 kernel: [6139473.982320] [<ffffffff81143fc3>] alloc_pages_vma+0xb3/0x190 
Dec 13 06:16:39 mmsc-04 kernel: [6139473.982329] [<ffffffff8112883b>] handle_pte_fault+0x6db/0x970 

我不知道是否有任何機會,這是由一些異常的mmsbox行爲引起的?我看到這一行(我不知道它是否表示mmsbox很好):

Dec 13 06:16:39 mmsc-04 kernel: [6139473.982224] Pid: 32246, comm: mmsbox Not tainted 3.4.62-53.42.amzn1.x86_64 #1 

任何幫助/建議將不勝感激。

回答

0

最有可能它不是一個mmsbox問題。用戶空間流程沒有任何內容。根據錯誤追蹤,這是一個內核的問題。

如果你的內核使用任何不標準的內核模塊或補丁,所以可能存在這個錯誤的問題。

好運。

相關問題