當我配置hdfs連接器時,我設置了「flush.size=3
」和「rotate.interval.ms=5000
」,我感到困惑的是它是否會生成大量簡單文件,例如:數以萬計的文件的...Kafka-connect-hdfs:微小的文件和rotate.interval設置之間的區別
我不想更瑣碎的文件,還有沒有其他可能的解決方案?
另外,rotate.interval.ms
和rotate.schedule.interval.ms
有什麼區別?
當我配置hdfs連接器時,我設置了「flush.size=3
」和「rotate.interval.ms=5000
」,我感到困惑的是它是否會生成大量簡單文件,例如:數以萬計的文件的...Kafka-connect-hdfs:微小的文件和rotate.interval設置之間的區別
我不想更瑣碎的文件,還有沒有其他可能的解決方案?
另外,rotate.interval.ms
和rotate.schedule.interval.ms
有什麼區別?
設置rotate.interval.ms=5000
將每5秒調用一次文件提交。您可能希望將其保持原樣,因爲默認情況下會禁用它,除非數據提取率較低,並且連接器沒有寫入足夠的消息來提交文件。
rotate.interval.ms和rotate.schedule.interval.ms之間的不同之處在於:
rotate.schedule.interval.ms
將確保提交在 預定的時間內完成不管以前commits.This配置的是 有用當你不得不根據當前服務器時間提交數據時,像每小時開始時一樣提供數據。
rotate.interval.ms
將調用每'n'ms的文件提交併確保文件提交每'n'ms被調用。
非常感謝! 每次調用文件提交都會生成新文件? 如果我禁用rotate.interval.ms和rotate.schedule.interval.ms配置,那麼連接器將調用文件提交多長時間?這與內存大小有什麼關係? – lcplj123