apache-spark-2.0

0熱度

1回答

我有spark 2.0斯卡拉2.11.8，我想包括圖框架包。我輸入階殼以下： <spark-shell --packages graphframes:graphframes:0.1.0-spark1.6> But still I got the error message: scala> import org.graphframes._ <console>:23: error: obj

1熱度

1回答

不能以星火打印流應用

火花流應用不打印簡單的語句到driver's stdout，在這裏，我想打印一些說法，只是轉化dstream_2之後，但它纔剛剛印刷OFR首批唯一。我預計它將被打印爲每批執行。 val sparkConf = new SparkConf().setMaster("yarn-cluster") .setAppName("SparkJob") .set(

1熱度

1回答

Spark：使用map並使用SparkSql減少

我不應該問這個問題，我真的不想問，但我迷路了。我看到很多以wordcount爲例的教程。但我有問題，瞭解如何與sparkSql 使用它，例如，我有以下查詢 Dataset<Row> totalItem = spark.sql(" select icode from bigmart.o_sales"); 它使我的數據集？現在我可以迭代totalItem和打印結果，但我想要計算該項目發生的次數

1熱度

1回答

保存的RDD對在特定的格式輸出文件

我有一個JavaPairRDD可以說型 <Integer,List<Integer>> 的數據時，我做data.saveAsTextFile（「輸出」）輸出將包含在所述數據格式如下：（1，[1,2,3,4]）等等我想在輸出文件中是這樣的： 1 1,2,3,4 i.e. 1\t1,2,3,4 任何幫助，將不勝感激

0熱度

2回答

如何使用兩個功能同時對RDD條目進行排序？

我有一個Spark RDD，其條目我想以有組織的方式進行排序。假設條目是一個包含3個元素(name,phonenumber,timestamp)的元組。我想首先根據phonenumber的值對條目進行排序，然後根據timestamp的值對條目進行排序，同時尊重並不改變基於phonenumber完成的排序。（所以timestamp只根據phonenumber排序重新排列）。有Spark功能來做到這

-1熱度

2回答

spark-shell中的重用腳本

我使用spark與scala來進行時間序列分析。我每次關閉並打開時，都會在spark-shell中編寫相同的腳本。我想建議如何將我的腳本從spark-shell保存並稍後使用。我是否需要下載scala IDE，將其保存並在spark-shell中運行該文件？謝謝。

1熱度

2回答

火花保存服用大量的時間

我有2個dataframes，我想找到除2等於所有列（surrogate_key，電流）的記錄然後，我要保存新surrogate_key值的記錄。以下是我的代碼： val seq = csvDataFrame.columns.toSeq var exceptDF = csvDataFrame.except(csvDataFrame.as('a).join(table.as('b),seq).

0熱度

1回答

如何待辦事項與Apache的星火2.x的java的增量序列

在Apache的星火2.x的數據幀如何TODO的遞增序列與的Java || TempTable。換句話說，什麼是monotonically_increasing_id（）函數在ApacheSpark-> Sql-> java || API - > Java的

0熱度

2回答

如何將數據寫入Hive表？

我使用Spark 2.0.2。在學習寫一個數據集的蜂巢表的概念，我的理解，我們這樣做有兩種方式：使用sparkSession.sql（「你的SQL查詢」） dataframe.write .mode（SaveMode。「類型的模式」）。INSERTINTO（「表名」）誰能告訴我什麼是加載使用星火蜂房表的首選方法是什麼？

0熱度

3回答

星火不讀取與空值的列在第一行

下面是我的csv文件內容： A1,B1,C1 A2,B2,C2,D1 A3,B3,C3,D2,E1 A4,B4,C4,D3 A5,B5,C5,,E2 因此，有5列，但僅3中的第一行中的值。我讀它使用下面的命令： val csvDF : DataFrame = spark.read .option("header", "false") .option("delimiter", ",