apache-spark-sql

    1熱度

    1回答

    我有一個Spark SQL將我的S3 JSON文件讀入DataFrame中。 然後我在該DataFrame上運行2個SQL,並在執行每個SQL之前發現SparkSQL讀取我的S3 JSON文件兩次。 如果數據框對象不被重用,這將是非常昂貴的... 任何幫助表示讚賞。 這裏是我的代碼片段: protected boolean doAggregations() throws IOException {

    1熱度

    1回答

    我有一個看起來像這樣的星火數據幀(爲了清楚起見簡化時間戳和id列值): | Timestamp | id | status | -------------------------------- | 1 | 1 | pending | | 2 | 2 | pending | | 3 | 1 | in-progress | | 4 | 1 | in-progress |

    1熱度

    1回答

    有一些方法可將org.apache.spark.sql.DataFrame的數據保存到文件系統或Hive。但是如何將在MongoDB數據上創建的DataFrame的數據保存到MongoDB? 編輯:我創建了數據幀使用 SparkContext sc = new SparkContext() Configuration config = new Configuration(); config.s

    0熱度

    1回答

    我試圖構建Apache星火SQL核心(1.4.1),我得到以下堆棧跟蹤。但是如果我構建整個Spark項目,一切進展順利,並且該建築物成功完成。有任何想法嗎? 堆棧跟蹤 [error] /home/ubuntu/Dev/spark/sql/core/src/main/scala/org/apache/spark/sql/DataFrameReader.scala:258: value globPat

    1熱度

    1回答

    我需要從數據框中刪除空分區 我們有兩個數據框,都是使用sqlContext創建的。而dataframes構造和組合如下 import org.apache.spark.sql.{SQLContext} val sqlContext = new SQLContext(sc) // Loading Dataframe 1 val csv1 = "s3n://xxxxx:[email prot

    6熱度

    1回答

    我正在查看spark.sql.DataFrame文檔。 有 def as(alias: String): DataFrame Returns a new DataFrame with an alias set. Since 1.3.0 什麼是這種方法的目的是什麼?它是如何使用的?有沒有例子? 我還沒有設法找到任何關於這種方法在線和文檔是不存在的。我沒有設法使用這

    14熱度

    4回答

    在火花SQL(也許只有HiveQL)一個可以這樣做: select sex, avg(age) as avg_age from humans group by sex ,這將導致一個名爲"sex"和"avg_age"列DataFrame。 avg(age)如何在不使用文本SQL的情況下將其別名爲"avg_age"? 編輯: zero323的回答後,我需要添加約束: 列將要更名爲的名字可能不

    1熱度

    1回答

    我正在使用DataFrame讀取.parquet文件,但不是將它們轉換爲rdd來執行我想要對它們執行的正常處理。 所以,我有我的文件: val dataSplit = sqlContext.parquetFile("input.parquet") val convRDD = dataSplit.rdd val columnIndex = convRDD.flatMap(r => r.zipWi

    2熱度

    1回答

    有誰知道Apache Spark SQL獲得與標準SQL qualify()+ rnk或row_number語句相同的結果的最佳方式嗎? 例如: 我有稱爲statement_data與每個爲100個獨特的account_numbers 12個月記錄的火花數據幀,因此1200在總 記錄每個每月記錄有一個被稱爲「statement_date」,可以字段被用於確定最近的記錄 我希望我的最終結果是一個新的

    0熱度

    1回答

    我創建了一個數據幀sparkR,人們 +----+-------+ | age| name| +----+-------+ |20.0|Michael| |30.0| Andy| |19.0| Justin| +----+-------+ 我怎麼能選擇列「時代」的第一個值。在R語言中,我們可以通過people$age[1]來完成,結果爲20.0。我們如何在sparkR Data框架