apache-spark-sql

0熱度

2回答

我收到下面當我嘗試在SQL讀取結果計數錯誤：錯誤： Exception in thread "main" org.apache.spark.sql.catalyst.errors.package$TreeNodeException: Unresolved attributes 這裏是我使用的代碼： val results= sqlContext.sql("select * from tabl

1熱度

1回答

使用語言集成SQL的schemaRDD的SQL函數

我想使用基於SQL函數的語言集成SQL過濾schemaRDD。例如，我想運行 SELECT name FROM people WHERE name LIKE '%AHSAN%' AND name regexp '^[A-Z]{20}$' 我怎樣才能people.where使用這些SQL函數（）？參考：對於語言集成SQL，我下面給here的例子。 val sqlContext = new o

1熱度

2回答

Spark懶惰轉換執行障礙

我正在SparkSQL上工作。我使用JavaPairRDD從HBase獲取數據，然後製作了一張地圖。在地圖中，我將所有的鑰匙保存到一個Set中。爲了強制完成這張地圖，我們遵循collect（）。在此之後，我使用Set中的值來執行其他操作。該程序可以在我的本地PC上完美工作。但是當我把它放到集羣（2名工人）時，就存在執行障礙。在地圖轉換之前，執行Set操作。代碼流是這樣的：從HBase的獲取

0熱度

1回答

Spark SQL - 性能診斷

我正在使用Spark SQL，但有些查詢速度很慢。我想知道如何獲得關於查詢速度緩慢的一些見解，以便我可以嘗試優化系統。

0熱度

1回答

將大型Hbase表加載到SPARK RDD需要很長時間

我試圖將一個大的Hbase表加載到SPARK RDD中以在實體上運行SparkSQL查詢。對於有大約600萬行的實體，將需要大約35秒才能將其加載到RDD。是否預計？有什麼方法可以縮短加載過程嗎？我一直在從http://hbase.apache.org/book/perf.reading.html獲得一些提示，以加快此過程，例如， scan.setCaching（cacheSize），並且只添加必

1熱度

1回答

星火SQL超時

我試圖運行一個獨立的Spark集羣 select a.name, b.name, s.score from score s inner join A a on a.id = s.a_id inner join B b on b.id = s.b_id where pmod(a.id, 3) != 3 and pmod(b.id, 3) != 0 表尺寸如下一個相對簡單的星火SQL命令

28熱度

3回答

查詢具有複雜類型的Spark SQL DataFrame

如何查詢具有複雜類型（如maps/arrays）的RDD？例如，當我在寫這個測試代碼： case class Test(name: String, map: Map[String, String]) val map = Map("hello" -> "world", "hey" -> "there") val map2 = Map("hello" -> "people", "hey" ->

0熱度

1回答

在PySpark中減少的正確輸入

我想使用spark來離散一些數據。我有以下列格式數據： date zip amount 2013/04/02 04324 32.2 2013/04/01 23242 1.5 2013/04/02 99343 12 然後我有以下代碼： sampleTable = sqlCtx.inferSchema(columns) sampleTable.registerAsTable("amo

1熱度

1回答

使用SQL和權重與火花ML LogisticRegressionModel

我正在試驗spark.ml庫和管道功能。似乎是在使用SQL與分裂（如火車和測試）的限制：我很高興，spark.ml工作關模式RDD的，但隨機拆分模式RDD中沒有簡單的方法測試和訓練集。我可以使用randomSplit（0.6,0.4），但是會返回丟失模式的RDD數組。我可以強制使用一個案例類並將其轉換回RDD模式，但我有很多功能。我使用過濾器，並根據我的一個iid功能使用了一些基本的分區條件）。

1熱度

1回答

將PostgreSQL數據庫加載到SchemaRDD

我在PostgreSQL中擁有100萬行和100列以上的數據源，並且我想使用Spark SQL，因此我想將此數據源轉換爲SchemaRDD。兩種方法在Spark SQL Programming Guide引入，一種是通過反射，這意味着我需要定義： case class Row(Var1: Int, Var2: String, ...) 這是繁瑣的，因爲我有超過100個列。另一種辦法是「編