apache-spark-sql

0熱度

1回答

編輯：經過一些更多的故障排除之後，我發現了以下內容 - 我將lag（event_time）添加到查詢中，查看查詢收集的日期，結果： SELECT device_id, event_time, unix_time, event_id, lag(event_time) OVER (PARTITION BY device_id ORDER BY unix

0熱度

1回答

如何以正確的方式加載火花中的csv文件？

我在spark中加載csv文件，但它包含null值bcz中的arrAy索引超出了界限的異常會發生如何加載它？ val schema = StructType (Array(StructField("ROW_ID",StringType,true) ,StructField("CREATED",TimestampType,true) ,StructField("CREATED_BY", String

13熱度

1回答

Python API中提供了Spark SQL UDAF（用戶定義的聚合函數）嗎？

火花的1.5.0似乎可以編寫自己的UDAF的對DataFrames定製的聚合： Spark 1.5 DataFrame API Highlights: Date/Time/String Handling, Time Intervals, and UDAFs 如果此功能是Python API所支持然而我不清楚？

0熱度

1回答

如何在火花中記錄數據幀？

我比較新的火花。不過，我需要弄清楚是否有辦法在什麼時候看到哪個數據幀正在被訪問。這可以通過本地火花記錄來實現嗎？如果是這樣，那麼我該如何實現呢？

3熱度

2回答

火花，有位於AWS S3上CSV和JSON

查詢DataFrames之間的性能差異我有一個CSV文件和JSON文件（每個具有500萬行/記錄）。它們包含完全相同的數據，只是格式不同。在有10個任務節點的集羣EMR，我已經開始火花（10個執行人，執行人40個核），並創建了兩個DataFrames：一個針對CSV，一個針對JSON。針對DF 查詢建關JSON文件運行不是像對DF建關CSV查詢快2-3倍。我還沒有發現任何關於存儲文件格式的性能差

2熱度

1回答

火花SQL從SBT斯卡拉

使用谷歌Dataproc星火產業集羣，我SBT建組裝罐子可以通過SparkContext訪問卡桑德拉。然而，當我通過sqlContext嘗試訪問我獲得遠程羣集上沒有發現火花SQL類 - 雖然我相信dataproc集羣應該被供應用於火花SQL。 java.lang.NoClassDefFoundError: org/apache/spark/sql/types/UTF8String$

4熱度

1回答

Seq.contains在SQL中的星火據幀

我有以下數據結構： id: int records: Seq[String] other: boolean 在一個JSON文件，爲了便於測試： var data = sc.makeRDD(Seq[String]( "{\"id\":1, \"records\": [\"one\", \"two\", \"three\"], \"other\": true}", "{\"id\":

0熱度

1回答

如何將二進制文件更改爲RDD或數據框？

http://spark.apache.org/docs/latest/sql-programming-guide.html#interoperating-with-rdds 該鏈接顯示如何將txt文件更改爲RDD，然後更改爲Dataframe。那麼如何處理二進制文件呢？問一個例子，非常感謝。有沒有在這裏回答類似的問題：reading binary data into (py) spark

1熱度

1回答

Spark Redshift保存爲s3拼圖

將紅移表保存爲s3作爲parquet文件的問題...這是來自日期字段。我將嘗試將列轉換爲long，然後將其存儲爲現在的unix時間戳。 Caused by: java.lang.NumberFormatException: multiple points at sun.misc.FloatingDecimal.readJavaFormatString(FloatingDecimal.java:1

2熱度

1回答

使用Spark和HiveSQL執行多個查詢的問題

我希望有人可以幫助我解決這個問題。在火花外殼哪裏，如果我試圖像下面的東西： var sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) var query = "select * from myDB.table limit 10; drop table if exists" var queryDF = sqlContext