apache-spark-sql

    4熱度

    1回答

    我試圖用spark(任何風味:pyspark,spark,spark sql等)來計算複合興趣(kind-of)。 我的數據具有以下形狀: +------------+------+------+--------+ | population | rate | year | city | +------------+------+------+--------+ | 100 | 0.1 |

    37熱度

    3回答

    Apache Spark SQLContext和HiveContext有什麼區別? 有些消息來源表示,由於HiveContext是SQLContext的超集,因此開發人員應始終使用HiveContext,它具有比SQLContext更多的功能。但是,每個上下文的當前API大部分是相同的。 SQLContext/HiveContext更有用的場景是什麼? 只有使用Hive時,HiveContext才

    5熱度

    2回答

    在Spark中使用Scala處理數據幀時遇到困難。如果我有一個數據框,我想提取一列唯一條目,當我使用groupBy時,我沒有收到數據幀。 例如,我有一個DataFrame稱爲日誌有以下形式: machine_id | event | other_stuff 34131231 | thing | stuff 83423984 | notathing | notstuff 34131231

    0熱度

    2回答

    我正在嘗試從dashDB將數據讀入spark,然後再次將其寫回到dashDB的基本測試用例。 步驟1。首先,筆記本電腦中,我讀出的數據: sqlContext = SQLContext(sc) dashdata = sqlContext.read.jdbc( url="jdbc:db2://bluemix05.bluforcloud.com:50000/BLUDB:user=****;p

    3熱度

    1回答

    我有一個4臺機器的集羣,一個主機和三個工人,每個機器都有128G內存和64個內核。我在獨立模式下使用Spark 1.5.0。我的程序使用JDBC從Oracle表中讀取數據,然後執行ETL,處理數據以及執行機器學習任務,如k-means。 我有一個DataFrame(myDF.cache()),它是與其他兩個DataFrames結合並緩存的結果。 DataFrame包含2700萬行,數據大小約爲1.

    3熱度

    1回答

    我知道我可以提取列如下: userData1.select(userData1("job")) 但是如果我已經有一列或多列的一個陣列,我如何得到一個數據框出來的它?什麼工作對我來說,到目前爲止是: userData1.select(userData1("id"), userData1("age")) 這是一個有點冗長和醜陋相比,在R中可以做什麼: userData1[, c("id", "

    10熱度

    2回答

    柱 我火花新手,我想下面源數據幀(負載從JSON文件)轉換:下面結果數據幀 +--+-----+-----+ |A |count|major| +--+-----+-----+ | a| 1| m1| | a| 1| m2| | a| 2| m3| | a| 3| m4| | b| 4| m1| | b| 1| m2| | b| 2| m3| | c| 3| m1| | c|

    0熱度

    1回答

    以下工作: val df = sqlc.sql("select coalesce(optPrefix.optSysIp,'--') as ip, count(1) as cnt from llines group by coalesce(optPrefix.optSysIp,'--')").collect res39: Array[org.apache.spark.sql.Row] = Ar

    3熱度

    1回答

    我是新來使用Python中Spark和一直未能解決這個問題:在pyspark.sql.dataframe.DataFrame df = sqlsc.read.json("data.json") df.groupBy('teamId') 運行groupBy你怎麼可以選擇從N隨機樣本後每個結果組(由teamId分組),無需替換? 我基本上試圖從每個團隊中隨機選擇N用戶,也許用groupBy開頭是

    2熱度

    1回答

    爲了裝載大型SQL數據星火轉化& ML其中這些下面的選項是在性能方面更好。 選項1:使用Spark SQL JDBC連接器將SQLData直接加載到Spark。 選項2:使用Sqoop以csv格式將SQLData加載到HDFS,然後使用Spark從HDFS讀取數據。 請提出這一個好方法上面的加載到星火大型SQL數據。