2016-04-04 34 views
2

我每週僅在一個雙節點集羣上的一個節點上收到此錯誤。 這是我對AMC得到了錯誤:集羣完整性受到干擾

主要錯誤:

Cluster integrity has been disturbed

錯誤的每一組:

Mismatch in replication factor for namespace test as shown by nodes

的信息,在2個節點具有相同aerospike.conf文件複製因子爲2. 另一件引起我注意的事情是,整個羣集不可用,而只有一個節點關閉(不可見),所以我在質問自己Aerospike的HA。

要解決此問題,我只需重新啓動不可見的節點。

On the aerospike documentation它說:

This can be true if a set of nodes has split from the main cluster. (This is sometimes referred to as a split brain.) Generally, it is easiest to restart the 「lost」 node(s) to get it/them to rejoin the cluster.

但是作爲每週出現這種問題,我很樂意一旦解決了這個和所有:)

+1

你可以grep日誌'羣集完整性'(不區分大小寫),如果有任何錯誤,請分享。版本也將有所幫助 –

+1

我感覺到力量的擾動。 – jotik

+0

@BenBates 日誌: 'CLUSTER INTEGRITY FAULT。 [第2階段1]固定,發出此命令在所有節點:逼債:節點= bb9648009565000,bb9017602565000' 版本:社區版3.7.0.1 告訴我,如果你需要更多的 –

回答

3

一個建議是將paxos-recovery-policy設置爲auto-reset-master,並且集羣應該自己重新組合,假設問題的原因是臨時網絡流量,這意味着集羣可能會失去完整性。

+1

感謝您的建議,我更新了這個配置,我會保持更新。 –

+0

10天后,沒有發現羣集完整性問題。 謝謝! –

+0

感謝您的更新,好東西! –

3

我塞式的工作,做了一些研究之後,「不匹配在節點所顯示的名稱空間測試的複製因子中「可以鏈接到不可見的節點。在具有複製因子2的2節點羣集中,當一個節點不可用時,複製因子將降至1以保持數據可用性。當節點重新加入羣集時,複製因素很短時間不匹配,AMC將重試,並且您不應該看到重複此錯誤。

我們需要到達節點底部的問題以解答第二個問題,請參閱我的評論。