apache-spark-sql

1熱度

1回答

相當於我在尋找Hadoop的mapjoin相當於Spark和我能找到這個spark.sql.autoBroadcastJoinThreshold 它是否工作正常火花SQL？我嘗試過，但是即使我應用參數，它也沒有效果，因爲隨機播放讀/寫是相同的。我設置這個值，跑到我的查詢sqlContext.sql("SET spark.sql.autoBroadcastJoinThreshold=1000000

0熱度

1回答

如何連接RDD [String]與Array [String]來生成String？

如何將RDD[String]和Array[String]轉換爲字符串？我得到下面的錯誤， <console>:34: error: type mismatch; found : org.apache.spark.rdd.RDD[String] required: String 的想法是讓某列的不同日期SchemaRDD和CONCAT與常量字符串爲/home/tmp/date=日期。所以，

1熱度

1回答

如何從RDD中保存的文本文件創建鯊魚查詢？

我有一個JavaPairRDD<String, String> results，我通過調用保存： results.saveAsTextFile("data") 然後我得到的文件內容，如： (www.abc.com,0.15712321 www.def.com,www.aaa.com,www.ccc.com) 現在，我想創建一個表使用鯊魚像三個領域： url STRING | rank DO

2熱度

1回答

Spark新手（ODBC/SparkSQL）

我有一個火花集羣設置，並嘗試在我的數據集上的本地scala和火花sql，並且安裝似乎大部分工作。我有以下問題從ODBC/extenal連接到集羣，我應該期待什麼？ - 管理員/開發人員對數據進行整形並保留/緩存將暴露的幾個RDD？（關於蜂巢表的思路） - 在spark/spark sql中連接到「Hive metastore」會有什麼相似之處？是否正在考慮蜂巢的故障？我的另一個問題是 -

1熱度

1回答

Impala中的OVERLAPS功能

我試圖在ORACLE或Netezza中使用和重疊函數，它需要兩個日期範圍並檢查它們是否相互重疊。 Soemthing like this： SELECT (TIMESTAMP '2011-01-28 00:00:00', TIMESTAMP '2011-02-01 23:59:59') OVERLAPS (TIMESTAMP '2011-02-01 00:00:00', TIMESTAMP '20

9熱度

2回答

使用Spark SQL從SQL Server讀取數據

是否可以從Microsoft Sql Server（以及oracle，mysql等）將數據讀入Spark應用程序中的rdd？或者我們是否需要創建一個內存集並將其並行化爲一個RDD？

9熱度

1回答

Spark SQL無法完成用大量碎片編寫Parquet數據

我想使用Apache Spark SQL將S3中的json日誌數據也轉換爲S3上的Parquet文件。我的代碼基本上是： import org.apache.spark._ val sqlContext = sql.SQLContext(sc) val data = sqlContext.jsonFile("s3n://...", 10e-6) data.saveAsParquetFile

8熱度

2回答

EntityTooLarge錯誤上傳5G的文件到Amazon S3時

Amazon S3的文件大小限制應該根據這個announcement是5T，但上傳5G文件 '/mahler%2Fparquet%2Fpageview%2Fall-2014-2000%2F_temporary%2F_attempt_201410112050_0009_r_000221_2222%2Fpart-r-222.parquet' XML Error Message: <?xml