apache-spark-sql

    0熱度

    1回答

    我們有一個Spark版本2.0的MapR羣集 我們試圖測量當前在TEZ引擎上運行的Hive查詢的性能差異,然後在Spark-sql上運行它,只需編寫在.hql文件中查詢sql查詢,然後通過shell文件調用它。 查詢中包含很多Join,這些Join肯定會創建多個階段,並且在這種情況下將會發生混洗,那麼最合適的選擇是什麼? 這是真的,數據集,星火比Dataframes較慢像GROUPBY,最大值,最

    0熱度

    2回答

    我想實現扁平化利用火花/斯卡拉API記錄的邏輯拉平記錄。我正在嘗試使用地圖功能。 能否請你幫我解決這個問題最簡單的方法? 假設,對於一個給定鑰匙我需要有3個過程代碼 輸入數據幀 - > Keycol|processcode John |1 Mary |8 John |2 John |4 Mary |1 Mary |7 ================= =============

    0熱度

    1回答

    MySQL的'秀processlist`的是否有Apache SparkSQLMySQL的命令show processlist;的等效?

    0熱度

    1回答

    Apache SparkSQL中是否有相當於MySQL的命令kill query(定義爲here)?謝謝!

    0熱度

    1回答

    我一直試圖添加一個數據幀的結果作爲另一個數據幀中的新數組字段基於一個鍵值。 例如,我有這樣的數據幀我們稱之爲df1: root |-- DF_KEY: integer (nullable = false) |-- DF_DESC: string (nullable = false) +------------+--------------------+ |DF_KEY | DF_D

    0熱度

    1回答

    我必須使用spark將sql server表中的數據加載到本地文件系統中的csv中。以下是我使用的代碼。 val sqlContext = new org.apache.spark.sql.SQLContext(sc) val jdbcSqlConnStr = "jdbc:sqlserver://HostIP:1433;databaseName=DBName;user=UserName;pass

    0熱度

    1回答

    我有如下表: +-----+---+----+ |type | t |code| +-----+---+----+ | A| 25| 11| | A| 55| 42| | B| 88| 11| | A|114| 11| | B|220| 58| | B|520| 11| +-----+---+----+ 而且我想要的東西: +-----+---+----+ |t1 | t2

    0熱度

    1回答

    我設置了一個火花紗線集羣環境,並嘗試火花SQL火花殼: spark-shell --master yarn --deploy-mode client --conf spark.yarn.archive=hdfs://hadoop_273_namenode_ip:namenode_port/spark-archive.zip 有一點要提的是Spark是在Windows 7.在火花殼成功啓動,我執

    -1熱度

    2回答

    我有一個已經從一些json創建的rdd,rdd中的每個記錄都包含鍵/值對。我RDD的樣子: myRdd.foreach(println) {"sequence":89,"id":8697344444103393,"trackingInfo":{"location":"Browse","row":0,"trackId":14170286,"listId":"cd7c2c7a-00f6

    -1熱度

    1回答

    我有一個數據集是從卡桑德拉火花加載。加載這個數據集後,我將從cassandra中刪除一些項目,但我希望我的數據集作爲下一次計算的第一個數據集。我用persist(DISK_ONLY)來解決它,但它似乎盡力而爲。 如何強制使用火花以避免重新計算? 例如: val dataset:Dataset[Int] = ??? // something from cassandra dataset.persi