2015-06-06 18 views
0

在六節點Cassandra集羣[複製因子2]上,我們注意到單個節點被熱點[重負載]。在查看tpstats時,我可以看到寫入階段的Flush writer和Replicate具有全部時間受阻的任務。Cassandra tpstats和調整

我們只有一個數據目錄[因此已經配置卡桑德拉僅使用一個flushwriter]和memTable中沖洗的隊列大小是所有節點2

Heavily Loaded Node 
Replicate-on-write-stage 32 4128 599249 48 371304 
Flush-writer 0 0 85 0 24 

Normal Node: 
ReplicateOnWriteStage 0   0   753665   0  0 
FlushWriter   0   0   137   0  25 

配置是完全一樣的,我們使用摩摩爾分區程序。

是否還有其他一些統計數據可以引用,以便跟蹤CPU負載問題並在單個節點上阻止寫入階段進行復制?

這些計數器是在tpstats歷史計數器還是每N分鐘刷新一次?

here提到,塊可以因爲IO不保留或巨大的行和排序[這增加了CPU負載]。難道後者會成爲整個集羣中一個節點異常加載的原因嗎?

+0

準確地說,tpstats本身不能用於爲您解決問題。當發生這種情況時,你能得到netstats和compactionstats嗎?此外,你是否經常看到任何CF沖洗? – Ananth

回答

0

增加堆大小應該是解決方案。在您的日誌中,如果您看到過長的GC時間,GC暫停時間可能是罪魁禍首。

你還可以發佈你的日誌,以便我們可以找到更好的解決方案。