checkpointing

    3熱度

    1回答

    恢復我現在面臨的問題與火花流在這裏我想使用廣播,mapWithState工作org.apache.spark.util.SerializableConfiguration不能鑄造和檢查點在火花中。 以下是用法: 因爲我要通過一些連接對象(不序列化)爲遺囑執行人,我使用org.apache.spark.broadcast.Broadcast 既然我們要保持我使用狀態流與mapWithState一些緩

    0熱度

    1回答

    我寫了一個Spark Streaming應用程序,需要對具有底層轉換的各種Dstream進行一些操作,正如本主題中所建議的那樣(Error in starting Spark streaming context),我已經完成了我所有的transfomration創造上下文的定義的函數, object StreamingEngine2 { val filterF = { (x: Path

    0熱度

    1回答

    我從這個版本的此源代碼構建搬運工恢復: git clone -b cr-combined --single-branch https://github.com/boucher/docker.git CD泊塢窗 #make build #make binary : https://github.com/boucher/docker/tree/cr-combined 克隆代碼後然後將生成的文

    1熱度

    2回答

    我正在使用R/spark循環播放一些csv數據文件。每個文件的大約1%必須保留(根據特定標準過濾)並與下一個數據文件合併(我已使用union/rbind)。但是,隨着循環運行,數據沿襲的時間越來越長,因爲火花會記住所有以前的數據集和filter()-s。 有沒有辦法在spark API中做點校驗?我已經瞭解到spark 2.1對DataFrames有檢查點,但是這似乎無法從R.

    0熱度

    2回答

    當從檢查點恢復失敗的作業時,應用程序邏輯被正確調用並且RDD被重新實例化,但是對RDD.map的調用會導致NullPointerException。 lazy val ssc = StreamingContext.getOrCreate(checkpointDir, createStreamingContext _) private def createStreamingContext: St

    1熱度

    1回答

    檢查點對Apache Spark做了什麼?它是否會在RAM或CPU上發生任何命中?

    1熱度

    1回答

    的文件是什麼文件系統說,任何Hadoop的API兼容的文件系統(HDFS一樣,S3)可以用作檢查點目錄。 我的問題是,除了HDFS和S3什麼是火花流媒體使用卡夫卡和卡桑德拉應用等實用的替代品。 感謝

    0熱度

    1回答

    是我緩存的理解錯了嗎?在我所有的轉換之後,得到的RDD非常小,比如1GB。它計算的數據非常大,大小約700 GB。 我要運行的邏輯閱讀成千上萬的相當大的文件,所有計算小得多導致RDD。每次迭代都會處理下一批400個文件,這些文件在讀入時可能會炸燬大約700 GB的大小。傳入的RDD以相同的方式進行處理(讀取和轉換),然後與積累的RDD合併。 I 緩存和檢查點每次迭代後(也是非運行(阻塞= true

    0熱度

    1回答

    在TensorFlow 1.0中,tf.train.Supervisor以save_model_secs的間隔保存檢查點。在培訓結束時是否有辦法保存檢查點,而不是定期在培訓期間?

    0熱度

    2回答

    我注意到火花流實例也有檢查點的代碼。我的問題是檢查點的重要性。如果它具有容錯能力,那麼在這樣的流媒體應用程序中發生故障的頻率如何?