apache-spark-sql

    1熱度

    1回答

    相當於我在尋找Hadoop的mapjoin相當於Spark和我能找到這個spark.sql.autoBroadcastJoinThreshold 它是否工作正常火花SQL?我嘗試過,但是即使我應用參數,它也沒有效果,因爲隨機播放讀/寫是相同的。 我設置這個值,跑到我的查詢sqlContext.sql("SET spark.sql.autoBroadcastJoinThreshold=1000000

    0熱度

    1回答

    如何將RDD[String]和Array[String]轉換爲字符串? 我得到下面的錯誤, <console>:34: error: type mismatch; found : org.apache.spark.rdd.RDD[String] required: String 的想法是讓某列的不同日期SchemaRDD和CONCAT與常量字符串爲/home/tmp/date=日期。所以,

    1熱度

    1回答

    我有一個JavaPairRDD<String, String> results,我通過調用保存: results.saveAsTextFile("data") 然後我得到的文件內容,如: (www.abc.com,0.15712321 www.def.com,www.aaa.com,www.ccc.com) 現在,我想創建一個表使用鯊魚像三個領域: url STRING | rank DO

    2熱度

    1回答

    我有一個火花集羣設置,並嘗試在我的數據集上的本地scala和火花sql,並且安裝似乎大部分工作。我有以下問題 從ODBC/extenal連接到集羣,我應該期待什麼? - 管理員/開發人員對數據進行整形並保留/緩存將暴露的幾個RDD? (關於蜂巢表的思路) - 在spark/spark sql中連接到「Hive metastore」會有什麼相似之處? 是否正在考慮蜂巢的故障? 我的另一個問題是 -

    1熱度

    1回答

    我試圖在ORACLE或Netezza中使用和重疊函數,它需要兩個日期範圍並檢查它們是否相互重疊。 Soemthing like this: SELECT (TIMESTAMP '2011-01-28 00:00:00', TIMESTAMP '2011-02-01 23:59:59') OVERLAPS (TIMESTAMP '2011-02-01 00:00:00', TIMESTAMP '20

    9熱度

    2回答

    是否可以從Microsoft Sql Server(以及oracle,mysql等)將數據讀入Spark應用程序中的rdd?或者我們是否需要創建一個內存集並將其並行化爲一個RDD?

    9熱度

    1回答

    我想使用Apache Spark SQL將S3中的json日誌數據也轉換爲S3上的Parquet文件。 我的代碼基本上是: import org.apache.spark._ val sqlContext = sql.SQLContext(sc) val data = sqlContext.jsonFile("s3n://...", 10e-6) data.saveAsParquetFile

    8熱度

    2回答

    Amazon S3的文件大小限制應該根據這個announcement是5T,但上傳5G文件 '/mahler%2Fparquet%2Fpageview%2Fall-2014-2000%2F_temporary%2F_attempt_201410112050_0009_r_000221_2222%2Fpart-r-222.parquet' XML Error Message: <?xml