2017-03-17 33 views
0

在我的Spark Streaming作業中,CPU未充分利用(僅爲5-10%)。低火花流處理器CPU使用率

它從卡夫卡獲取數據併發送到DynomoDB或第三方端點。

是否有任何建議可以更好地利用cpu資源,假設端點不是瓶頸。

回答

0

卡夫卡的並行度取決於主題的分區數量。

如果主題中的分區數量很少,則無法在火花流式集羣中高效地進行並行處理。

首先,增加話題的分區數量。

如果您無法增加Kafka主題的分區,請在DStream.foreachRdd之後通過重新分區來增加分區數。

這將在所有節點之間分配數據,並且效率更高。