apache-spark-sql

1熱度

1回答

我有一個Spark SQL將我的S3 JSON文件讀入DataFrame中。然後我在該DataFrame上運行2個SQL，並在執行每個SQL之前發現SparkSQL讀取我的S3 JSON文件兩次。如果數據框對象不被重用，這將是非常昂貴的... 任何幫助表示讚賞。這裏是我的代碼片段： protected boolean doAggregations() throws IOException {

1熱度

1回答

刪除冗餘列在Spark數據幀時間序列數據

我有一個看起來像這樣的星火數據幀（爲了清楚起見簡化時間戳和id列值）： | Timestamp | id | status | -------------------------------- | 1 | 1 | pending | | 2 | 2 | pending | | 3 | 1 | in-progress | | 4 | 1 | in-progress |

1熱度

1回答

如何將數據從MongoDB數據上創建的org.apache.spark.sql.DataFrame保存回MongoDB？

有一些方法可將org.apache.spark.sql.DataFrame的數據保存到文件系統或Hive。但是如何將在MongoDB數據上創建的DataFrame的數據保存到MongoDB？編輯：我創建了數據幀使用 SparkContext sc = new SparkContext() Configuration config = new Configuration(); config.s

0熱度

1回答

構建Apache星火SQL核心

我試圖構建Apache星火SQL核心（1.4.1），我得到以下堆棧跟蹤。但是如果我構建整個Spark項目，一切進展順利，並且該建築物成功完成。有任何想法嗎？堆棧跟蹤 [error] /home/ubuntu/Dev/spark/sql/core/src/main/scala/org/apache/spark/sql/DataFrameReader.scala:258: value globPat

1熱度

1回答

如何刪除數據框中的空分區？

我需要從數據框中刪除空分區我們有兩個數據框，都是使用sqlContext創建的。而dataframes構造和組合如下 import org.apache.spark.sql.{SQLContext} val sqlContext = new SQLContext(sc) // Loading Dataframe 1 val csv1 = "s3n://xxxxx:[email prot

6熱度

1回答

使用火花DataFrame「as」方法

我正在查看spark.sql.DataFrame文檔。有 def as(alias: String): DataFrame Returns a new DataFrame with an alias set. Since 1.3.0 什麼是這種方法的目的是什麼？它是如何使用的？有沒有例子？我還沒有設法找到任何關於這種方法在線和文檔是不存在的。我沒有設法使用這

14熱度

4回答

是否有可能在spark sql中以編程方式別名列？

在火花SQL（也許只有HiveQL）一個可以這樣做： select sex, avg(age) as avg_age from humans group by sex ，這將導致一個名爲"sex"和"avg_age"列DataFrame。 avg(age)如何在不使用文本SQL的情況下將其別名爲"avg_age"？編輯： zero323的回答後，我需要添加約束：列將要更名爲的名字可能不

1熱度

1回答

Spark DataFrame zipWithIndex

我正在使用DataFrame讀取.parquet文件，但不是將它們轉換爲rdd來執行我想要對它們執行的正常處理。所以，我有我的文件： val dataSplit = sqlContext.parquetFile("input.parquet") val convRDD = dataSplit.rdd val columnIndex = convRDD.flatMap(r => r.zipWi

2熱度

1回答

SPARK SQL等效的Qualify + Row_number語句

有誰知道Apache Spark SQL獲得與標準SQL qualify（）+ rnk或row_number語句相同的結果的最佳方式嗎？例如：我有稱爲statement_data與每個爲100個獨特的account_numbers 12個月記錄的火花數據幀，因此1200在總記錄每個每月記錄有一個被稱爲「statement_date」，可以字段被用於確定最近的記錄我希望我的最終結果是一個新的

0熱度

1回答

如何選擇sparkR數據幀的列值？

我創建了一個數據幀sparkR，人們 +----+-------+ | age| name| +----+-------+ |20.0|Michael| |30.0| Andy| |19.0| Justin| +----+-------+ 我怎麼能選擇列「時代」的第一個值。在R語言中，我們可以通過people$age[1]來完成，結果爲20.0。我們如何在sparkR Data框架