2016-09-20 28 views
0

對於數據攝取,我想用水槽,要麼把它的邊緣節點(在安全的DMZ羣集外部)或在工作節點中的一個。邊緣或工作節點上的水槽?

  • 在哪裏可以找到最佳做法嗎?
  • 每種方法的優缺點是什麼?

回答

1

有一個問題與水槽一個工作節點上(即,數據管理部)。使用HDFS時,如果客戶端在數據節點上運行,則在寫入數據時,數據的第一個副本始終會寫入本地數據節點。

所以,如果你有很多數據節點,然後你有一對夫婦只它們的運行水槽,這些數據節點將傾向於具有比其他節點使用更多的空間。這實際上取決於您計劃使用Flume編寫多少數據,以確定這可能是否存在問題,以及您是否在寫入數據後處理數據。

有可能是對具有邊緣節點水槽太好的防火牆/安全原因 - 這真的取決於你的需求。

+0

謝謝!沒有想過將數據寫入本地數據節點的問題 – fabsta