使用kafka connect的最佳實踐

對於生產類型的設置，將記錄的TB寫入KAFKA主題，使用KAFKA connect-HDFS連接器的最佳做法是什麼？使用kafka connect的最佳實踐

我的kafka實例在AWS主機名a.b.c.d上運行，而我的hadoop namenode在AWS主機名p.q.r.上。對於開發/ POC目的，我們保持融合在同一個框中，因爲我們有kafka實例正在運行，即在a.b.c.d上。 HDFS羣集大小爲500GB。

但是對於簇大小爲20-30TB的生產類型設置，建議將匯合在與KAFKA實例相同的框中還是在Namenode框或單獨的框中？在這種生產情況下，需要多少獨立的磁盤大小才能滿足需求？

來源

2017-01-23 earl

我假設你是指連接工人，當你說「融合」，所以這個評論是基於這一假設。最可取的做法是儘可能單獨提供服務。與經紀人分開運行工作人員，與NameNode分開。連接工作人員需要的磁盤空間非常少，因爲他們不保存數據（獨立模式下的偏移數據除外）。在分佈式模式下，您可以彈性擴展工作人員，因此分離事物對於長期可擴展設置也更好。

對於您的用例，您確實需要進行基準測試，以確保性能可以接受，如果您想在同一個盒子中運行某些功能。弄清楚是否可以共同定位確實是一個諮詢問題，需要您的用例的詳細信息達到可能不適合在線論壇的級別。

來源

2017-01-25 13:10:01 dawsaw