apache-spark-sql

    19熱度

    4回答

    我想弄清楚獲取Spark數據框列中最大值的最佳方法。 請看下面的例子: df = spark.createDataFrame([(1., 4.), (2., 5.), (3., 6.)], ["A", "B"]) df.show() 它創建: +---+---+ | A| B| +---+---+ |1.0|4.0| |2.0|5.0| |3.0|6.0| +---+---+

    6熱度

    2回答

    在「Zeppelin教程」筆記本中,我無法使用%sql解釋器。它會輸出「sql interpreter not found」。但火花命令工作正常,以及%md和%sh。 這裏的日誌: ERROR [2015年10月20日10:13:35045]({qtp885851948-51} NotebookServer.java [runParagraph]:615) - 異常來自運行 org.apache

    3熱度

    1回答

    當我在調試模式下在hive控制檯上運行查詢時,出現如下所示的錯誤。我使用的是hive-1.2.1和spark 1.5.1;我檢查了具有類定義org/apache/hive/spark/client/Job的hive-exec jar。 Caused by: java.lang.NoClassDefFoundError: org/apache/hive/spark/client/Job a

    0熱度

    1回答

    我正在使用Spark SQL,並且想要緩存最初在Hive中創建的表。如果該表位於Hive的默認數據庫中,這可以正常工作,例如 CACHE TABLE test1; 但是,如果它位於不同的數據庫中,例如, myDB然後我做不到 CACHE TABLE myDB.test1; 因爲星火抱怨failure: ``as'' expected but「。 found`。 我可以然而通過運行 SELE

    2熱度

    1回答

    我想在DataFrame上應用一個否定的過濾條件,如下所示。 !(`Ship Mode` LIKE '%Truck%') 這是投擲下面 Exception in thread "main" java.lang.RuntimeException: [1.3] failure: identifier expected (!(`Ship Mode` LIKE '%Truck%')) ^

    11熱度

    3回答

    替換無/空值空字符串我有一個Spark 1.5.0 DataFrame與null混合和空字符串在同一列。我想所有的空字符串轉換中的所有列null(None,在Python)。 DataFrame可能有數百個列,所以我試圖避免每列的硬編碼操作。 見下面我嘗試,從而導致錯誤。 from pyspark.sql import SQLContext sqlContext = SQLContext(sc)

    10熱度

    1回答

    我希望能夠將DataFrames打包到Scala jar文件中並在R中訪問它們。最終目標是創建一種訪問特定和經常使用的數據庫表的方法在Python,R和Scala中,無需爲每個庫編寫不同的庫。 爲此,我在Scala中創建了一個jar文件,其中包含使用SparkSQL庫查詢數據庫並獲取我想要的DataFrame的函數。我希望能夠在R中調用這些函數而無需創建另一個JVM,因爲Spark已經在R中的JV

    0熱度

    1回答

    我使用Apache的火花在斯卡拉在數據幀上運行多個列聚合例如 select column1, sum(1) as count from df group by column1 select column2, sum(1) as count from df group by column2 實際的聚合不僅僅是總和(1)更復雜,但它除了點。 查詢字符串如上述示例被編譯爲每個我想聚集,我通過火花S

    1熱度

    1回答

    我使用以下語句創建配置單元外部表 sqlContext.createExternalTable(tableName, "parquet", someDF.schema, Map("path" -> path)) 重新啓動spark後,創建的表不可見。 是否有可能以某種方式創建一個持久化在快子中的配置單元表,使用來自某些數據幀的現有模式的spark? 我希望表格架構保存在配置單元Metastore中

    0熱度

    1回答

    我將拼接空表保存爲空時出現問題。在這種情況下,架構不會被保留,並且之後不能讀取該表。 myDF.write.format("parquet").partitionBy("part_id").save("aa") 我的SQL查詢依靠同一套表,並在表的情況下是空的,爲此不能讀取查詢不起作用。 有沒有辦法用元數據保存空表? 與問候, 邁克爾