我是新來的火花,但我試圖做一些發展。我正在關注來自the spark developer page的「減少生成時間」指令。創建正常的程序集後,我寫了一些依賴於特定jar的類。我使用定義SPARK_CLASSPATH
來測試我的包在Spark-Shell中的包,但是問題在於實際編譯我的代碼。我想要實現的是在編譯我添加的包時包含該jar(與build/sbt compile
)。我可以通過在build/sbt
文件或sbt-launch-lib.bash
中添加一個路徑到我的jar文件,如果是的話如何?spark:如何包含依賴關係build/sbt編譯
(附註:我不想還包括在組裝罐子,因爲正如我去,我做了一些更改,所以它會帶來不便,我使用的Spark 1.4)。
任何幫助感謝!
這聽起來像你要做的是將你的代碼編譯到你正在構建的Spark分發中。那是對的嗎?如果是這樣,那絕對是違背正常實踐的。您應該按照原來的方式訪問代碼,方法是將其添加到CLASSPATH中,或者在啓動spark-shell或spark-submit時將其通過spark-submit或-jars參數傳遞給spark。除非由於特定原因修改核心Spark庫,否則應該單獨離開核心Spark構建。 – DemetriKots
@DemetriKots謝謝你的回覆!是的,我克隆了火花,我最終的目標是爲他們的圖書館貢獻力量。我正在添加一個庫來激發mllib,並且在設置'export SPARK_PREPEND_CLASSES = true'之後,我需要編譯我的代碼,這取決於我的本地jar。有什麼方法可以添加該依賴關係嗎? – Sasha