我們有一個簡單的火花流媒體應用,通過火花流從卡夫卡事件,並持續到Redis的這一點。卡夫卡 - 星火直接流故障轉移
最初我們使用Receiver-based Approach,它複製分批進入HDFS,之後開始處理。這種方法並不像我們所希望的那樣穩定(我們的hadoop機器上很多流量),所以我們在火花流內切換到Direct Approach (No Receivers)。
令我困惑的是auto.offset.reset參數在文檔中提到。當一份工作失敗或者火花管理員失敗時,我們會看到流程工作通過處理大量事件並隨後穩定加班而迎頭趕上。
第二種方法我們不再看到這種行爲,我們不確定火花流是否真的趕上或剛開始auto.offset.resetlatest
。
是latest
用於故障切換一個合理的默認,並做了數據流作業,真正正確地趕上上重啓/主失敗?
感謝, 繆奇