對於生產類型的設置,將記錄的TB寫入KAFKA主題,使用KAFKA connect-HDFS連接器的最佳做法是什麼?使用kafka connect的最佳實踐
我的kafka實例在AWS主機名a.b.c.d上運行,而我的hadoop namenode在AWS主機名p.q.r.上。對於開發/ POC目的,我們保持融合在同一個框中,因爲我們有kafka實例正在運行,即在a.b.c.d上。 HDFS羣集大小爲500GB。
但是對於簇大小爲20-30TB的生產類型設置,建議將匯合在與KAFKA實例相同的框中還是在Namenode框或單獨的框中?在這種生產情況下,需要多少獨立的磁盤大小才能滿足需求?