apache-spark-sql

1熱度

2回答

我有一個名爲df的pyspark數據框。 ONE LINE EXAMPLE: df.take(1) [Row(data=u'2016-12-25',nome=u'Mauro',day_type="SUN")] 我有假期一天的清單： holydays=[u'2016-12-25',u'2016-12-08'....] 我想改用day_type爲「HOLIDAY」如果「數據」是holyd

2熱度

1回答

如何訪問Hive中的現有表？

我想用scala來訪問spark應用程序中的HIVE。我的代碼： val hiveLocation = "hdfs://master:9000/user/hive/warehouse" val conf = new SparkConf().setAppName("SOME APP NAME").setMaster("local[*]").set("spark.sql.warehouse.dir

0熱度

2回答

Hive和SparkSQL不支持日期時間類型？

是不是Hive和SparkSQL不支持datetime的數據類型？從我閱讀的參考文獻中，他們似乎只支持date和timestamp。前者不是時間分量（即小時，分鐘和秒）;後者具有很高的精確度（低至毫秒），但並不是人類可讀的（它總是需要通過from_unixtime()或date_format()進行轉換，結果將是字符串，而不是datetime類型）。相比之下，其他數據庫系統（如MySQL）具有

5熱度

1回答

如何將show操作符的輸出讀回數據集？

假設我們有以下的文本文件（df.show()命令的輸出）： +----+---------+--------+ |col1| col2| col3| +----+---------+--------+ | 1|pi number|3.141592| | 2| e number| 2.71828| +----+---------+--------+ 現在我想讀/解析它作爲一個數據幀/

0熱度

2回答

Hive/SparkSQL：如何將Unix時間戳轉換爲時間戳（不是字符串）？

我想這是很容易... 在蜂巢/ SparkSQL，我該如何轉換unix時間戳[注1]爲timestamp 數據類型？（注1：也就是說，自1970年1月1日秒/分的毫秒數）我想from_unixtime()會做到這一點，但它給回一個字符串，而不是一個時間戳。以下實驗說明了該問題步驟0：製備 select from_unixtime(1508673584) as fut; 結果：

1熱度

1回答

Spark wholeTextFiles（）：java.lang.OutOfMemoryError：Java堆空間

我正在用spark.wholeTextFiles()處理一個400MB的文件，並且我一直收到內存不足錯誤。我第一次使用這個API的文件夾總共有40MB，我想知道我的代碼是否適用於大文件，這是大文件的來源。這是配置，我想我提供了足夠的RAM堆，但仍然沒有運氣，我只是閱讀的文件夾，然後寫下來與 files.saveAsTextFile("data/output/no") 和命令是 spark-s

0熱度

1回答

DataFrame第一個函數ignoreNulls不起作用

讀取Spark文檔的第一個函數，它提到ignoreNulls會得到第一個非空值。 import org.apache.spark.sql.SparkSession import org.apache.spark.sql.functions._ import org.apache.spark.sql.expressions.{Window, WindowSpec} object tmp {

1熱度

1回答

通過使用Scala

只選擇每n個元素減少星火據幀的大小 I V有一個org.apache.spark.sql.Dataframe = [t: double, S: long] 現在我想通過每2元，以減少據幀，與val n=2 結果應該是你會如何解決這個問題？我嘗試了插入第三列並使用模，但我無法解決它。

0熱度

1回答

ExceptionInInitializer錯誤，同時從Teradata表讀取數據使用星火

我使用下面的代碼來讀取Teradata的數據，但收到錯誤 val jdbcDF = spark.read .format("jdbc") .option("url",s"jdbc:teradata://${TeradataDBHost}/database=${TeradataDBDatabase}") .option("dbtable", TeradataDBData

0熱度

1回答

|性能調整和優化

優化在基於Yarn的羣集上部署的Spark Jobs的最佳方式是什麼？。尋找基於配置而非代碼級別的更改。我的問題是經典設計級別的問題，應該使用什麼方法來優化Spark Streaming或Spark SQL上開發的作業。