據我所知,檢查點失敗應該被忽略,並重試可能更大的狀態。我有這種情況如果點檢查失敗,Flink管道是否會失敗?
- HDFS進入安全模式b'coz的名稱節點發出
異常被拋出
org.apache.hadoop.ipc.RemoteException(org.apache.hadoop。 ipc.StandbyException):操作類別WRITE在狀態備用中不受支持。訪問https://s.apache.org/sbnn-error ..................
在org.apache.flink.runtime.fs.hdfs.HadoopFileSystem.mkdirs(HadoopFileSystem.java:453) 在org.apache.flink.core.fs.SafetyNetWrapperFileSystem.mkdirs(SafetyNetWrapperFileSystem.java:111) 在org.apache.flink.runtime.state.filesystem.FsCheckpointStreamFactory.createBasePath(FsCheckpointStreamFactory.java:132)
的在hdfs問題得到解決後,管道在幾次重啓和檢查點失敗後回來。
我不會擔心重啓,但顯然我失去了我的操作員狀態。要麼是我的卡夫卡消費者不斷推進它在起點和下一個檢查點失敗(一分鐘的價值)之間的偏移或者具有部分總計的運營商丟失。我有一個15分鐘的密鑰操作員計數窗口
我正在使用ROCKS DB,當然已啓用檢查點設置。因此
的問題是
- 應該如果檢查點未通過管道重新啓動?
- 爲什麼在重新啓動時操作員狀態沒有重新創建?
- 拋出異常的性質是否與這個b'coz中的任何一個暫停並從保存點恢復正常工作?儘管我非常確定,但操作符像Window默認的運算符是drfault,因此如果我有timeWindow(Time.of(window_size,TimeUnit.MINUTES))。reduce(new ReduceFunction(),new WindowFunction()) ,狀態由flink管理?