spark-submit

0熱度

1回答

當我嘗試使用spark-submit使用參數--packages定義提交spark工作時，我期望spark首先搜索工件的本地repo，並在存在的情況下使用它們。我觀察到每次spark都試圖從internet上獲取工件，並且如果沒有連接失敗。我可以強制spark使用本地緩存嗎？例如： spark-submit --master yarn --deploy-mode cluster --pack

1熱度

1回答

使用spark-submit提交Spark Scala作業時出錯使用spark-submit

我使用Eclipse - > New Scala Project在scala中編寫了一個簡單的應用程序。我正在使用Scala 2.10.6和Spark 2.0.2。該應用程序正在編譯沒有錯誤，我也導出了jar文件。我使用下面的命令來執行JAR spark-submit TowerTest.jar --class com.IFTL.EDI.LocateTower MobLocationData

0熱度

1回答

如何發送ES配置使用spark-submit？

如何發送es配置使用spark-submit命令就像在蜂巢中一樣？例子： spark-submit ... --files hive-site.xml --jars ... 然後我可以訪問蜂巢表使用SQL火花，我想用ES類似的事情，任何提示呢？

0熱度

1回答

如何從文件傳遞配置參數作爲火花作業的環境變量？

正在運行一個Spark應用程序，它將使用文件中的配置參數。文件： - Spark.conf username=ankush password=ankush host=https:// port=22 outputDirectory=/home/ankush/data/ 如何在運行時使用此文件。而不是在我們對配置文件進行更改時重新啓動作業如何使作業動態地在運行時選擇文件。我試圖使用

-2熱度

1回答

在羣集上運行速度非常慢的Spark程序

我想在羣集中運行我的PySpark具有2個節點和1個主節點（全部具有16 Gb RAM）。我用下面的命令運行了我的火花。火花提交--master紗--deploy模式集羣--name 「Pyspark」 --num執行人40 --executor-2G內存CD.py 但是我的代碼運行非常緩慢，解析8.2 GB數據需要將近1小時。然後我試着改變我的配置YARN。我改變了以下屬性。 yarn.sc

0熱度

1回答

是否可以將spark-submit用作作業調度程序？

我有一個沒有安裝其他作業調度程序的spark獨立羣集。我不知道是否可以用作火花和非火花作業的作業調度程序（例如，不爲Spark編寫而不使用RDD的scala jar）？根據我的測試，用於提交非Spark作業並且作業成功運行。但這裏是我的問題：以下選項是否仍然有意義？ --driver-cores --driver-memory --executor-memory --total-exe

-3熱度

1回答

當通過spark-submit提交時，Apache Beam作業掛起

我只是試圖在本地Spark設置中執行Apache Beam示例代碼。我生成了源文件並構建了this page中提到的包。並使用spark-submit如下提交罐子， $ ~/spark/bin/spark-submit --class org.apache.beam.examples.WordCount --master local target/word-count-beam-0.1.jar -

1熱度

1回答

針對v1和v2運行Spark應用程序

我試圖從使用Spark v1設置我的spark應用程序轉移到v2。在v1中，我將使用Spark Context和Spark Config進行初始化。但是，根據Spark v2的最新文檔（快速入門指南），我應該使用Spark Session，並且建議使用spark-submit從cmd傳遞配置（我提到的所有內容都顯示在本頁底部附近：https://spark.apache.org/docs/late

0熱度

1回答

spark-app saveAsText本地錯誤

由於Mkdirs導致的Spark應用程序錯誤未能創建。我使用的火花1.6.3無法在我的本地目錄保存輸出 java.io.IOException: Mkdirs failed to create file:/home/zooms/output/sample1/sample1.txt/_temporary/0/_temporary/attempt_201709251225_0005_m_000000

0熱度

2回答

在火花代碼管理conf.setMaster（）使用配置文件來自動設置本地或紗線集羣

因此，當開發火花程序，我使用我的本地機器，因此必須setMaster「本地」。但是，當我提交由我本地開發的程序構建的jar時，我顯然不想使用「本地」模式。如何在生產時使用可能的類型安全配置來設置「本地」測試和「紗線羣集」？編輯：基於來自@Shaido的溶液中，IDEA的Intellij：轉到：運行 - > EDIR confirgurations->在應用配置集： VM options =