apache-spark

9熱度

2回答

爲什麼使用案例類編碼JSON時出現錯誤「無法找到存儲在數據集中的類型的編碼器」？

我已經寫了火花的工作： object SimpleApp { def main(args: Array[String]) { val conf = new SparkConf().setAppName("Simple Application").setMaster("local") val sc = new SparkContext(conf) val ct

-2熱度

2回答

無法將json文件轉換爲使用spark的實木複合地板

我正在使用spark 1.6.0。我有一個json文件。它在下面給出。 {"id" : "1201", "name" : "shamir", "age" : "25"} 我想將它轉換爲實木複合地板。以下是我的代碼。 val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ i

0熱度

1回答

濾波RDD並且提取匹配的火花蟒數據

我有這樣的數據， cl_id cn_id cn_value 10004, 77173296 ,390.0 10004, 77173299 ,376.0 10004, 77173300 ,0.0 20005, 77173296 ,0.0 20005, 77173299 ,6.0 2005, 77438800 ,2.0 Cl_id的ID：10004，2000

4熱度

2回答

瞭解星火：羣集管理器，主機和驅動器節點

讀到這裏question，我想問其他問題：羣集管理器是一個長期運行的服務，在哪個節點正在運行？ Master和Driver節點可能是同一臺機器嗎？我認爲在某個地方應該有一個規則說明這兩個節點應該不同？如果Driver節點失敗，誰負責重新啓動應用程序？以及究竟會發生什麼？即主節點，集羣管理器和工作人員節點將如何參與（如果他們這樣做）以及以何種順序？類似於上一個問題：如果主節點發生故障，會發生什

1熱度

1回答

Spark中的Mongo-hadoop連接器API：無法更新文檔

我嘗試檢索我的集合中的文檔，並使用相同的值更新它們。我在spark-shell中運行了這個（我的數據庫和集合已經創建了一個文檔），但我得到了一個異常。 import org.apache.hadoop.conf.Configuration import org.apache.spark.{SparkContext, SparkConf} import org.apache.spark.rdd

1熱度

1回答

鏈接數據幀函數調用

下面的代碼不起作用： val newDF = df .withColumn("timestamp", when(df("processingDate").isNull, lit(new Timestamp(System.currentTimeMillis))).otherwise(df("processingDate"))) .withColumn("year", ye

2熱度

1回答

爲什麼重複使用SparkContext加快查詢速度

在我的Spark工作中，我創建了一個SparkContext，通過Parquet文件加載我的數據，然後使用spark sql來處理它們。當我打開火花外殼時，第一次運行查詢需要相當長的時間，在我的情況下大約需要200秒。然後我保持火星殼打開，並且運行相同的查詢，對同一個數據集也進行一些其他不同的查詢，它只需要20-30秒〜，它的性能大約提高了10倍。有人可以給我一個詳細的解釋嗎？一個Spark殼是

0熱度

1回答

Spark V1管道API保存不工作

在版本1.6中，管道API獲得了一組保存和加載管道階段的新功能。在我訓練分類器並在稍後再次加載以重用它並節省計算再次建模的成本時，我試圖將一個階段保存到磁盤。由於某些原因，當我保存模型時，該目錄只包含元數據目錄。當我再次嘗試加載它，我得到以下異常：線程「main」 java.lang.UnsupportedOperationException 例外：空收集在 org.apache.spark.

3熱度

1回答

YARN REST API - Spark作業提交

我正在嘗試使用YARN REST API來提交spark-submit作業，我通常通過命令行運行作業。我的命令行火花提交這個樣子的 JAVA_HOME=/usr/local/java7/ HADOOP_CONF_DIR=/etc/hadoop/conf /usr/local/spark-1.5/bin/spark-submit \ --driver-class-path "/etc/hadoo

1熱度

2回答

使用sparkR合併大數據集

我想知道sparkR是否更容易合併大數據集而不是「常規R」？我有12個csv文件，大約500,000行40列。這些文件是2014年的月度數據。我想爲2014年製作一個文件。這些文件都具有相同的列標籤，我希望按第一列（年）合併。但是，有些文件比其他文件有更多的行。當我運行下面的代碼： setwd("C:\\Users\\Anonymous\\Desktop\\Data 2014") file_