apache-spark-2.0

    0熱度

    1回答

    我有spark 2.0斯卡拉2.11.8,我想包括圖框架包。 我輸入階殼以下: <spark-shell --packages graphframes:graphframes:0.1.0-spark1.6> But still I got the error message: scala> import org.graphframes._ <console>:23: error: obj

    1熱度

    1回答

    火花流應用不打印簡單的語句到driver's stdout,在這裏,我想打印一些說法,只是轉化dstream_2之後,但它纔剛剛印刷OFR首批唯一。我預計它將被打印爲每批執行。 val sparkConf = new SparkConf().setMaster("yarn-cluster") .setAppName("SparkJob") .set(

    1熱度

    1回答

    我不應該問這個問題,我真的不想問,但我迷路了。我看到很多以wordcount爲例的教程。但我有問題,瞭解如何與sparkSql 使用它,例如,我有以下查詢 Dataset<Row> totalItem = spark.sql(" select icode from bigmart.o_sales"); 它使我的數據集?現在我可以迭代totalItem和打印結果,但我想要計算該項目發​​生的次數

    1熱度

    1回答

    我有一個JavaPairRDD可以說型 <Integer,List<Integer>> 的數據時,我做data.saveAsTextFile(「輸出」) 輸出將包含在所述數據格式如下: (1,[1,2,3,4]) 等等 我想在輸出文件中是這樣的: 1 1,2,3,4 i.e. 1\t1,2,3,4 任何幫助,將不勝感激

    0熱度

    2回答

    我有一個Spark RDD,其條目我想以有組織的方式進行排序。假設條目是一個包含3個元素(name,phonenumber,timestamp)的元組。我想首先根據phonenumber的值對條目進行排序,然後根據timestamp的值對條目進行排序,同時尊重並不改變基於phonenumber完成的排序。 (所以timestamp只根據phonenumber排序重新排列)。有Spark功能來做到這

    -1熱度

    2回答

    我使用spark與scala來進行時間序列分析。我每次關閉並打開時,都會在spark-shell中編寫相同的腳本。我想建議如何將我的腳本從spark-shell保存並稍後使用。 我是否需要下載scala IDE,將其保存並在spark-shell中運行該文件? 謝謝。

    1熱度

    2回答

    我有2個dataframes,我想找到除2等於所有列(surrogate_key,電流)的記錄 然後,我要保存新surrogate_key值的記錄。 以下是我的代碼: val seq = csvDataFrame.columns.toSeq var exceptDF = csvDataFrame.except(csvDataFrame.as('a).join(table.as('b),seq).

    0熱度

    1回答

    在Apache的星火2.x的數據幀如何TODO的遞增序列與的Java || TempTable。 換句話說,什麼是monotonically_increasing_id()函數在ApacheSpark-> Sql-> java || API - > Java的

    0熱度

    2回答

    我使用Spark 2.0.2。 在學習寫一個數據集的蜂巢表的概念,我的理解,我們這樣做有兩種方式:使用sparkSession.sql(「你的SQL查詢」) dataframe.write .mode(SaveMode。「類型的 模式」)。INSERTINTO(「表名」) 誰能告訴我什麼是加載使用星火蜂房表的首選方法是什麼?

    0熱度

    3回答

    下面是我的csv文件內容: A1,B1,C1 A2,B2,C2,D1 A3,B3,C3,D2,E1 A4,B4,C4,D3 A5,B5,C5,,E2 因此,有5列,但僅3中的第一行中的值。 我讀它使用下面的命令: val csvDF : DataFrame = spark.read .option("header", "false") .option("delimiter", ",