2017-08-10 50 views
1

當我配置hdfs連接器時,我設置了「flush.size=3」和「rotate.interval.ms=5000」,我感到困惑的是它是否會生成大量簡單文件,例如:數以萬計的文件的...Kafka-connect-hdfs:微小的文件和rotate.interval設置之間的區別

files

我不想更瑣碎的文件,還有沒有其他可能的解決方案?

另外,rotate.interval.msrotate.schedule.interval.ms有什麼區別?

回答

0

設置rotate.interval.ms=5000將每5秒調用一次文件提交。您可能希望將其保持原樣,因爲默認情況下會禁用它,除非數據提取率較低,並且連接器沒有寫入足夠的消息來提交文件。

rotate.interval.ms和rotate.schedule.interval.ms之間的不同之處在於:

rotate.schedule.interval.ms將確保提交在 預定的時間內完成不管以前commits.This配置的是 有用當你不得不根據當前服務器時間提交數據時,像每小時開始時一樣提供數據。

rotate.interval.ms將調用每'n'ms的文件提交併確保文件提交每'n'ms被調用。

+0

非常感謝! 每次調用文件提交都會生成新文件? 如果我禁用rotate.interval.ms和rotate.schedule.interval.ms配置,那麼連接器將調用文件提交多長時間?這與內存大小有什麼關係? – lcplj123

相關問題