apache-spark-sql

0熱度

1回答

我們有一個Spark版本2.0的MapR羣集我們試圖測量當前在TEZ引擎上運行的Hive查詢的性能差異，然後在Spark-sql上運行它，只需編寫在.hql文件中查詢sql查詢，然後通過shell文件調用它。查詢中包含很多Join，這些Join肯定會創建多個階段，並且在這種情況下將會發生混洗，那麼最合適的選擇是什麼？這是真的，數據集，星火比Dataframes較慢像GROUPBY，最大值，最

0熱度

2回答

火花使用鍵列

0熱度

1回答

相當於SparkSQL

MySQL的'秀processlist`的是否有Apache SparkSQLMySQL的命令show processlist;的等效？

0熱度

1回答

Apache SparkSQL中的``kill query``的等價物？

Apache SparkSQL中是否有相當於MySQL的命令kill query（定義爲here）？謝謝！

0熱度

1回答

如何添加一個數據幀轉換爲陣列作爲另一個數據幀的一個元素基於一個鍵值

我一直試圖添加一個數據幀的結果作爲另一個數據幀中的新數組字段基於一個鍵值。例如，我有這樣的數據幀我們稱之爲df1： root |-- DF_KEY: integer (nullable = false) |-- DF_DESC: string (nullable = false) +------------+--------------------+ |DF_KEY | DF_D

0熱度

1回答

如何從表中傳輸數據集？

我必須使用spark將sql server表中的數據加載到本地文件系統中的csv中。以下是我使用的代碼。 val sqlContext = new org.apache.spark.sql.SQLContext(sc) val jdbcSqlConnStr = "jdbc:sqlserver://HostIP:1433;databaseName=DBName;user=UserName;pass

0熱度

1回答

如何編寫嵌套查詢？

我有如下表： +-----+---+----+ |type | t |code| +-----+---+----+ | A| 25| 11| | A| 55| 42| | B| 88| 11| | A|114| 11| | B|220| 58| | B|520| 11| +-----+---+----+ 而且我想要的東西： +-----+---+----+ |t1 | t2

0熱度

1回答

saveAsTable兩端

我設置了一個火花紗線集羣環境，並嘗試火花SQL火花殼： spark-shell --master yarn --deploy-mode client --conf spark.yarn.archive=hdfs://hadoop_273_namenode_ip:namenode_port/spark-archive.zip 有一點要提的是Spark是在Windows 7.在火花殼成功啓動，我執

-1熱度

2回答

如何將JSON的RDD轉換爲Dataframe？

我有一個已經從一些json創建的rdd，rdd中的每個記錄都包含鍵/值對。我RDD的樣子： myRdd.foreach(println) {"sequence":89,"id":8697344444103393,"trackingInfo":{"location":"Browse","row":0,"trackId":14170286,"listId":"cd7c2c7a-00f6

-1熱度

1回答

如何強制spark以避免數據集重新計算？

我有一個數據集是從卡桑德拉火花加載。加載這個數據集後，我將從cassandra中刪除一些項目，但我希望我的數據集作爲下一次計算的第一個數據集。我用persist(DISK_ONLY)來解決它，但它似乎盡力而爲。如何強制使用火花以避免重新計算？例如： val dataset:Dataset[Int] = ??? // something from cassandra dataset.persi