2017-01-23 63 views
0

對於生產類型的設置,將記錄的TB寫入KAFKA主題,使用KAFKA connect-HDFS連接器的最佳做法是什麼?使用kafka connect的最佳實踐

我的kafka實例在AWS主機名a.b.c.d上運行,而我的hadoop namenode在AWS主機名p.q.r.上。對於開發/ POC目的,我們保持融合在同一個框中,因爲我們有kafka實例正在運行,即在a.b.c.d上。 HDFS羣集大小爲500GB。

但是對於簇大小爲20-30TB的生產類型設置,建議將匯合在與KAFKA實例相同的框中還是在Namenode框或單獨的框中?在這種生產情況下,需要多少獨立的磁盤大小才能滿足需求?

回答

1

我假設你是指連接工人,當你說「融合」,所以這個評論是基於這一假設。最可取的做法是儘可能單獨提供服務。與經紀人分開運行工作人員,與NameNode分開。連接工作人員需要的磁盤空間非常少,因爲他們不保存數據(獨立模式下的偏移數據除外)。在分佈式模式下,您可以彈性擴展工作人員,因此分離事物對於長期可擴展設置也更好。

對於您的用例,您確實需要進行基準測試,以確保性能可以接受,如果您想在同一個盒子中運行某些功能。弄清楚是否可以共同定位確實是一個諮詢問題,需要您的用例的詳細信息達到可能不適合在線論壇的級別。