apache-spark

0熱度

1回答

我有以下代碼： setwd("C:\\Users\\Anonymous\\Desktop\\Data 2014") Sys.setenv(SPARK_HOME = "C:\\Users\\Anonymous\\Desktop\\Spark-1.4.1\\spark-1.6.0-bin-hadoop2.6\\spark-1.6.0-bin-hadoop2.6") Sys.setenv('SPAR

1熱度

2回答

如何在使用cassandra spark連接器進行數據集成時將RDD工作並行化？

下面是示例senario，我們在cassandra中有實時數據記錄，並且我們想要彙總不同時間範圍內的數據。我寫的代碼象下面這樣： val timeRanges = getTimeRanges(report) timeRanges.foreach { timeRange => val (timestampStart, timestampEnd) = timeRange

2熱度

1回答

Scala：未指定的值參數證據$ 3

我環顧四周，發現了其他幾個這樣的例子，但是我從這些答案中並沒有真正理解到底發生了什麼。我想知道爲什麼下面的代碼無法編譯： val df = readFiles(sqlContext). withColumn("timestamp", udf(UDFs.parseDate _)($"timestamp")) 給錯誤： Error:(29, 58) not enough argumen

1熱度

1回答

SparkSQL（Spark 1.3）用於日期操作的UDF

我有一個包含兩個字符串列的數據框，其中包含有關日期（即「2014-01-01」）的信息。我想對類似日期格式這樣的列進行操作，並減去日期。我試圖用我發現在互聯網定義UDF，例如以下： import org.apache.spark.sql.types.DateType import org.apache.spark.sql.functions._ import org.joda.time.Dat

1熱度

1回答

無法加載spark中的hivecontext zeppelin

我已經安裝了zeppelin。除了當我嘗試導入配置單元上下文時，一切正常。我的齊柏林配置： System.getenv().get("MASTER") System.getenv().get("SPARK_YARN_JAR") System.getenv().get("HADOOP_CONF_DIR") System.getenv().get("JAVA_HOME") System.ge

1熱度

1回答

cloudant火花連接器創建嵌套的JSON模式重複的列名

我用下面的JSON模式在我cloudant數據庫： {... departureWeather:{ temp:30, otherfields:xyz }, arrivalWeather:{ temp:45, otherfields: abc } ... } 我然後使用cloudant火花的數據加載到數據幀連接器。如果我嘗試選擇這樣的字段： d

0熱度

1回答

如何將命令行參數傳遞給spark-shell scala腳本？

該問題類似於Passing command line arguments to Spark-shell。但是，我沒有得到我想要的答案，所以我在下面重新解釋我的問題。我想用下面的命令運行火花外殼Scala的腳本： spark-shell -i file.scale 它運作良好，沒有任何程序參數。但是，如果我想爲file.scale添加一些命令行參數。引用到它在斯卡拉外殼http://alvin

0熱度

1回答

如何正確地將數百萬個文件加載到RDD中

我有一大堆我想用Spark處理的json文件（> 100萬個文件）。但是，我從來沒有嘗試過將這麼多的數據加載到RDD中，所以我實際上不知道它是否可以完成，或者甚至是否應該完成。在Spark中處理RDD中的這些數據量的正確模式是什麼？

0熱度

3回答

SparkCLR：處理文本文件失敗

我努力學習SparkCLR處理一個文本文件，並使用在其上運行火花SQL查詢Sample象下面這樣： [Sample] internal static void MyDataFrameSample() { var schemaTagValues = new StructType(new List<StructField> { new S

0熱度

1回答

SparkException任務不可序列具有廣播變量（1.5.2版）

我 scala> sks res32: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[10] at filter at <console>:45 scala> sks2 res33: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[15] at map at <console>