apache-spark-sql

19熱度

4回答

我想弄清楚獲取Spark數據框列中最大值的最佳方法。請看下面的例子： df = spark.createDataFrame([(1., 4.), (2., 5.), (3., 6.)], ["A", "B"]) df.show() 它創建： +---+---+ | A| B| +---+---+ |1.0|4.0| |2.0|5.0| |3.0|6.0| +---+---+

6熱度

2回答

Apache zeppelin教程，錯誤「sql interpreter not found」

在「Zeppelin教程」筆記本中，我無法使用％sql解釋器。它會輸出「sql interpreter not found」。但火花命令工作正常，以及%md和%sh。這裏的日誌： ERROR [2015年10月20日10：13：35045]（{qtp885851948-51} NotebookServer.java [runParagraph]：615） - 異常來自運行 org.apache

3熱度

1回答

Hive On Spark：java.lang.NoClassDefFoundError：org/apache/hive/spark/client /作業

當我在調試模式下在hive控制檯上運行查詢時，出現如下所示的錯誤。我使用的是hive-1.2.1和spark 1.5.1;我檢查了具有類定義org/apache/hive/spark/client/Job的hive-exec jar。 Caused by: java.lang.NoClassDefFoundError: org/apache/hive/spark/client/Job a

0熱度

1回答

Spark SQL中的緩存表

我正在使用Spark SQL，並且想要緩存最初在Hive中創建的表。如果該表位於Hive的默認數據庫中，這可以正常工作，例如 CACHE TABLE test1; 但是，如果它位於不同的數據庫中，例如， myDB然後我做不到 CACHE TABLE myDB.test1; 因爲星火抱怨failure: ``as'' expected but「。 found`。我可以然而通過運行 SELE

2熱度

1回答

Spark數據幀否定過濾條件

我想在DataFrame上應用一個否定的過濾條件，如下所示。 !(`Ship Mode` LIKE '%Truck%') 這是投擲下面 Exception in thread "main" java.lang.RuntimeException: [1.3] failure: identifier expected (!(`Ship Mode` LIKE '%Truck%')) ^

11熱度

3回答

在數據幀

替換無/空值空字符串我有一個Spark 1.5.0 DataFrame與null混合和空字符串在同一列。我想所有的空字符串轉換中的所有列null（None，在Python）。 DataFrame可能有數百個列，所以我試圖避免每列的硬編碼操作。見下面我嘗試，從而導致錯誤。 from pyspark.sql import SQLContext sqlContext = SQLContext(sc)

10熱度

1回答

使用SparkR JVM從Scala jar文件中調用方法

我希望能夠將DataFrames打包到Scala jar文件中並在R中訪問它們。最終目標是創建一種訪問特定和經常使用的數據庫表的方法在Python，R和Scala中，無需爲每個庫編寫不同的庫。爲此，我在Scala中創建了一個jar文件，其中包含使用SparkSQL庫查詢數據庫並獲取我想要的DataFrame的函數。我希望能夠在R中調用這些函數而無需創建另一個JVM，因爲Spark已經在R中的JV

0熱度

1回答

阿帕奇星火多個聚合

我使用Apache的火花在斯卡拉在數據幀上運行多個列聚合例如 select column1, sum(1) as count from df group by column1 select column2, sum(1) as count from df group by column2 實際的聚合不僅僅是總和（1）更復雜，但它除了點。查詢字符串如上述示例被編譯爲每個我想聚集，我通過火花S

1熱度

1回答

使用sqlContext.createExternalTable創建的表在spark重新啓動後不可見

我使用以下語句創建配置單元外部表 sqlContext.createExternalTable(tableName, "parquet", someDF.schema, Map("path" -> path)) 重新啓動spark後，創建的表不可見。是否有可能以某種方式創建一個持久化在快子中的配置單元表，使用來自某些數據幀的現有模式的spark？我希望表格架構保存在配置單元Metastore中

0熱度

1回答

將空數據幀保存到拼花地板

我將拼接空表保存爲空時出現問題。在這種情況下，架構不會被保留，並且之後不能讀取該表。 myDF.write.format("parquet").partitionBy("part_id").save("aa") 我的SQL查詢依靠同一套表，並在表的情況下是空的，爲此不能讀取查詢不起作用。有沒有辦法用元數據保存空表？與問候，邁克爾