我正在嘗試對來自多個Cassandra表的數據運行Spark作業,這些表分組爲作業的一部分。我試圖用一個巨大的數據集13m數據點來結束運行,並且它已經失敗了多個點。當我解決這些故障並繼續前進時,我遇到了下一個我修復的問題,並再次重新開始工作。有沒有辦法加快實際數據的測試周期,以便我可以從特定檢查點重新啓動/恢復以前失敗的作業?是否有可能恢復失敗的Apache Spark作業?
2
A
回答
5
您可以在不同的中點檢查RDD到磁盤,如果有必要,您可以從這裏重新啓動RDD。您將不得不將中間體保存爲序列文件或文本文件,並且要做一些工作以確保所有內容都乾淨利落地從磁盤傳出。
我覺得它更有用的啓動spark-shell並在那裏建立我的數據流。如果您可以識別出具有代表性的數據子集,甚至更好。一旦進入REPL,您可以創建RDD,檢查第一個值或取(100)並將其打印到標準輸出,計算各種結果數據集等等。 REPL是什麼讓火花10倍比我對hadoop更有效率。
一旦我在REPL中構建了一個轉換和操作流程,我就可以得到我需要的結果,然後我可以將它形成一個scala文件並重構爲clean;提取可重用和單元測試的函數,調整並行性,無論如何。
當我需要擴展數據流時,經常會發現自己回到REPL,因此我從我的scala文件中複製並粘貼代碼以獲得良好的起點,並嘗試從此處擴展。
相關問題
- 1. 是否有可能從Spark-streaming檢查點恢復廣播值
- 2. 是否可以使用subclipse恢復失敗的結帳?
- 3. 由於java.lang.NoSuchMethodException,Spark作業失敗:org.apache.hadoop.hive.ql.metadata.Hive.loadDynamicPartitions
- 4. 由於InvalidClassException,Spark Kafka Streaming作業失敗
- 5. Spark作業失敗,退出狀態15
- 6. Apache Spark 1.6.0,callUDF失敗
- 7. 失敗的任務是否在Apache Spark中重新提交?
- 8. Git恢復失敗
- 9. Adventureworks恢復失敗
- 10. 是否有可能從JS中暫停/恢復/操作swiffyobject?
- 11. MongoDB恢復失敗
- 12. 恢復vim失敗
- 13. Mongoid恢復失敗
- 14. 數據庫和日誌恢復作業失敗
- 15. 是否有FullCalendar的'恢復'功能
- 16. Spark作業服務器中的Spark作業「java.lang.NoClassDefFoundError:org/apache/spark/sql/SQLContext」的錯誤
- 17. 作業失敗
- 18. StoreKit:Catch失敗的恢復?
- 19. 從失敗的rebase恢復
- 20. jQuery中是否有「恢復」或「恢復」功能?
- 21. Apache Spark Streaming失敗的集成測試
- 22. nuget恢復失敗,但手動工作
- 23. 是否有可能恢復以前的GL幀緩衝區?
- 24. 是否有可能恢復我刪除的xcdatamodel文件?
- 25. 訪問VBA:是否有可能恢復的錯誤處理
- 26. 數據庫恢復失敗,
- 27. AppFabric恢復命令失敗
- 28. xunit nuget包恢復失敗
- 29. Apache Spark上的遠程作業(Java)
- 30. 是否有可能在Github上恢復已刪除的要點?