apache-spark-sql

    0熱度

    2回答

    我收到下面當我嘗試在SQL讀取結果計數錯誤: 錯誤: Exception in thread "main" org.apache.spark.sql.catalyst.errors.package$TreeNodeException: Unresolved attributes 這裏是我使用的代碼: val results= sqlContext.sql("select * from tabl

    1熱度

    1回答

    我想使用基於SQL函數的語言集成SQL過濾schemaRDD。例如,我想運行 SELECT name FROM people WHERE name LIKE '%AHSAN%' AND name regexp '^[A-Z]{20}$' 我怎樣才能people.where使用這些SQL函數()? 參考: 對於語言集成SQL,我下面給here的例子。 val sqlContext = new o

    1熱度

    2回答

    我正在SparkSQL上工作。我使用JavaPairRDD從HBase獲取數據,然後製作了一張地圖。在地圖中,我將所有的鑰匙保存到一個Set中。爲了強制完成這張地圖,我們遵循collect()。 在此之後,我使用Set中的值來執行其他操作。 該程序可以在我的本地PC上完美工作。但是當我把它放到集羣(2名工人)時,就存在執行障礙。在地圖轉換之前,執行Set操作。 代碼流是這樣的: 從HBase的獲取

    0熱度

    1回答

    我正在使用Spark SQL,但有些查詢速度很慢。我想知道如何獲得關於查詢速度緩慢的一些見解,以便我可以嘗試優化系統。

    0熱度

    1回答

    我試圖將一個大的Hbase表加載到SPARK RDD中以在實體上運行SparkSQL查詢。對於有大約600萬行的實體,將需要大約35秒才能將其加載到RDD。是否預計?有什麼方法可以縮短加載過程嗎?我一直在從http://hbase.apache.org/book/perf.reading.html獲得一些提示,以加快此過程,例如, scan.setCaching(cacheSize),並且只添加必

    1熱度

    1回答

    我試圖運行一個獨立的Spark集羣 select a.name, b.name, s.score from score s inner join A a on a.id = s.a_id inner join B b on b.id = s.b_id where pmod(a.id, 3) != 3 and pmod(b.id, 3) != 0 表尺寸如下一個相對簡單的星火SQL命令

    28熱度

    3回答

    如何查詢具有複雜類型(如maps/arrays)的RDD? 例如,當我在寫這個測試代碼: case class Test(name: String, map: Map[String, String]) val map = Map("hello" -> "world", "hey" -> "there") val map2 = Map("hello" -> "people", "hey" ->

    0熱度

    1回答

    我想使用spark來離散一些數據。 我有以下列格式數據: date zip amount 2013/04/02 04324 32.2 2013/04/01 23242 1.5 2013/04/02 99343 12 然後我有以下代碼: sampleTable = sqlCtx.inferSchema(columns) sampleTable.registerAsTable("amo

    1熱度

    1回答

    我正在試驗spark.ml庫和管道功能。似乎是在使用SQL與分裂(如火車和測試)的限制: 我很高興,spark.ml工作關模式RDD的,但隨機拆分模式RDD中沒有簡單的方法測試和訓練集。我可以使用randomSplit(0.6,0.4),但是會返回丟失模式的RDD數組。我可以強制使用一個案例類並將其轉換回RDD模式,但我有很多功能。我使用過濾器,並根據我的一個iid功能使用了一些基本的分區條件)。

    1熱度

    1回答

    我在PostgreSQL中擁有100萬行和100列以上的數據源,並且我想使用Spark SQL,因此我想將此數據源轉換爲SchemaRDD。 兩種方法在Spark SQL Programming Guide引入, 一種是通過反射,這意味着我需要定義: case class Row(Var1: Int, Var2: String, ...) 這是繁瑣的,因爲我有超過100個列。 另一種辦法是「編