apache-spark

    0熱度

    1回答

    我有一個問題與Apache的火花。 我使用yarn-client模式工作。 這是我的配置: conf.set("spark.executor.memory", "4g") conf.set("spark.driver.memory", "4g") conf.set("spark.driver.cores", "4") conf.set("spark.default.parallelism",

    5熱度

    2回答

    剛剛在Ubuntu 14.04上將帶有Hadoop 2.6+的Spark 1.6的預構建版本下載到桌面上。 我瀏覽到火花外殼,並啓動火花按使用 ./bin/spark-shell 我收到以下錯誤下面 Quick Start Spark Link給出的鏈接。我在Mac OSX here上看到了一個類似的問題。 [email protected]:~/Desktop/spark-1.6.0-bin

    0熱度

    1回答

    當我在命令行中啓動spark時,發現參數num-executors的行爲與配置文件中的spark.executor.instances類似。他們真的是一樣的嗎?如果是這樣,我在哪裏可以找到所有這些對相同功能之間的完整映射?

    2熱度

    1回答

    我將邏輯迴歸的閾值設置爲0.5,然後將其用於評分。我現在想要獲得精確度,回想一下f1分值。不幸的是,當我嘗試這樣做時,我看到的唯一閾值是1.0和0.0。如何獲得對除0以外和1 例如這裏是O/P的閾值指標: 閾值是:1.0,精確度是:0.85 閾值是:0.0,精密是:0.312641 我沒有得到閾值0.5的精度。這是相關的代碼。 //我在這裏設置Logistic迴歸模型的閾值。 model.setT

    2熱度

    2回答

    如果我有類似下面一行在我spark-env.sh文件 export MY_JARS==$(jars=(/my/lib/dir/*.jar); IFS=,; echo "${jars[*]}") ,給了我一個逗號分隔的jar文件列表中/my/lib/dir,在那裏我可以指定 spark.jars $MY_JARS 在 spark-defaults.conf 的方法嗎?

    0熱度

    1回答

    我有一個json數據文件,其中包含一個屬性[creationDate],它是unix epoc中的「long」數字類型。 Apache的星火據幀模式看起來象下面這樣: root |-- creationDate: long (nullable = true) |-- id: long (nullable = true) |-- postTypeId: long (nullable = t

    0熱度

    1回答

    我想使用md5函數RDD [(String,Array [Double])]],但是有空指針異常的錯誤 。我發現堆棧溢出的問題。 call of distinct and map together throws NPE in spark library。 我的代碼: def md5(s: String) = { MessageDigest.getInstance("MD5").diges

    1熱度

    1回答

    我有下面的代碼,它運行一個隨機森林分類的​​交叉驗證計算一些指標。 def run(data:RDD[LabeledPoint], metric:String = "PR") = { val cv_data:Array[(RDD[LabeledPoint], RDD[LabeledPoint])] = MLUtils.kFold(data, numFolds, 0) val

    4熱度

    3回答

    我需要測量Apache Spark(Bluemix)上查詢的執行時間。 我試過的: import time startTimeQuery = time.clock() df = sqlContext.sql(query) df.show() endTimeQuery = time.clock() runTimeQuery = endTimeQuery - startTimeQuery

    2熱度

    2回答

    我試圖安裝Spark ML管道,但執行程序死亡。 The project is also on GitHub。這是腳本不起作用(有點簡化): // Prepare data sets logInfo("Getting datasets") val emoTrainingData = sqlc.read.parquet("/tw/sentiment/emo/parsed/data.parquet