apache-spark-sql

    5熱度

    3回答

    解析一些jsons後,我有數組 scala> val jj =sqlContext.jsonFile("/home/aahu/jj2.json") res68: org.apache.spark.sql.DataFrame = [r: array<bigint>] scala> jj.first() res69: org.apache.spark.sql.Row = [List(0, 1,

    0熱度

    1回答

    我想爲了使火花SQL和畫面工作中使用這些鏈接: http://www.tableau.com/about/blog/2014/10/tableau-spark-sql-big-data-just-got-even-more-supercharged-33799 https://www.concur.com/blog/en-us/connect-tableau-to-sparksql 對DSE之上運

    0熱度

    1回答

    因此,我試圖運行只使用spark-sql對cassandra運行查詢的作業,作業提交正常,作業開始正常。此代碼在不通過spark jobserver運行時(僅使用spark提交)。有人能告訴我什麼是我的工作代碼或配置文件錯誤導致下面的錯誤? { "status": "ERROR", "ERROR": { "errorClass": "java.util.concurr

    2熱度

    1回答

    我無法找到如何讀取Spark SQL的onDebugString輸出。 我不明白 什麼那些#NUMBER靠近列名 什麼真的還是假的均值附近聚集或排序(如:排序[l_returnflag#404 ASC,l_linestatus#405 ASC],真) 什麼BuildLeft或BuildRight上ShuffledHashJoin 的意思是爲什麼有quering鑲木數據庫和他們做了什麼意思 通過以下

    3熱度

    1回答

    我有一個Java應用程序,其中,我有Spark-1.4.0和Cassandra-2.1.5與Cassandra-Spark-connection-1.4.0-M1。 在此應用程序中,我試圖使用Dataframe或使用javaFunctions class將Java Bean類存儲到Cassandra表中,其中有一些UDTs。 messages.foreachRDD(new Function2<Ja

    4熱度

    2回答

    我正在嘗試將我的數據框寫入mysql表。當我嘗試寫作時,我得到No suitable driver found for jdbc:mysql://dbhost。 作爲預處理的一部分,我從同一個數據庫中的其他表中讀取並且沒有問題。我可以完成全部運行並將行保存到實木複合地板文件,因此它絕對是從MySQL數據庫讀取的。 我使用提交: spark-submit --conf spark.executor.

    4熱度

    1回答

    我在python中使用SparkSQL。我創建了一個分區表(〜數百個分區),使用hiveContext將其存儲到Hive內部表中。蜂房倉庫位於S3。 當我簡單地做「df = hiveContext.table(」mytable「)。第一次遍歷所有的分區需要一分鐘的時間,我以爲metastore存儲了所有的元數據。通過每個分區?是否有可能避免這一步,所以我的啓動可以更快?

    0熱度

    2回答

    我試圖使用Apache Spark來比較基於某些常見字段的兩個不同文件,並從兩個文件中獲取值並將其寫爲輸出文件。 我正在使用Spark SQL來連接這兩個文件(將RDD存儲爲表格後)。 這是正確的方法嗎? 我們可以compare/join沒有Apache SQL的文件嗎? 請在此建議我。

    1熱度

    1回答

    我的Spark應用程序需要處理數據流。 要做到這一點,我使用兩個火花模塊:流模塊和SQL模塊。 特別是我需要使用sql模塊,因爲我必須查詢從流中收集的每個記錄,本地Metastore中的配置單元表。 主要問題如下:流處理開始後(通過流上下文的方法開始),我無法使用sqlContext。當我嘗試流處理火花過程中使用sqlContext提高以下錯誤: 15/06/22 12:41:15 ERROR E

    2熱度

    2回答

    我在表T1以下數據 col1 | col2 | sess-1 | read | sess-1 | meet | sess-1 | walk | sess-2 | watch | sess-2 | sleep | sess-2 | run | sess-2 | drive | 預期輸出: col1 | col2 | sess-1 | read,meet,walk |