0
在六節點Cassandra集羣[複製因子2]上,我們注意到單個節點被熱點[重負載]。在查看tpstats時,我可以看到寫入階段的Flush writer和Replicate具有全部時間受阻的任務。Cassandra tpstats和調整
我們只有一個數據目錄[因此已經配置卡桑德拉僅使用一個flushwriter]和memTable中沖洗的隊列大小是所有節點2
Heavily Loaded Node
Replicate-on-write-stage 32 4128 599249 48 371304
Flush-writer 0 0 85 0 24
Normal Node:
ReplicateOnWriteStage 0 0 753665 0 0
FlushWriter 0 0 137 0 25
配置是完全一樣的,我們使用摩摩爾分區程序。
是否還有其他一些統計數據可以引用,以便跟蹤CPU負載問題並在單個節點上阻止寫入階段進行復制?
這些計數器是在tpstats歷史計數器還是每N分鐘刷新一次?
從here提到,塊可以因爲IO不保留或巨大的行和排序[這增加了CPU負載]。難道後者會成爲整個集羣中一個節點異常加載的原因嗎?
準確地說,tpstats本身不能用於爲您解決問題。當發生這種情況時,你能得到netstats和compactionstats嗎?此外,你是否經常看到任何CF沖洗? – Ananth