apache-spark-sql

    1熱度

    2回答

    我有一個名爲df的pyspark數據框。 ONE LINE EXAMPLE: df.take(1) [Row(data=u'2016-12-25',nome=u'Mauro',day_type="SUN")] 我有假期一天的清單: holydays=[u'2016-12-25',u'2016-12-08'....] 我想改用day_type爲「HOLIDAY」如果「數據」是holyd

    2熱度

    1回答

    我想用scala來訪問spark應用程序中的HIVE。 我的代碼: val hiveLocation = "hdfs://master:9000/user/hive/warehouse" val conf = new SparkConf().setAppName("SOME APP NAME").setMaster("local[*]").set("spark.sql.warehouse.dir

    0熱度

    2回答

    是不是Hive和SparkSQL不支持datetime的數據類型? 從我閱讀的參考文獻中,他們似乎只支持date和timestamp。前者不是時間分量(即小時,分鐘和秒);後者具有很高的精確度(低至毫秒),但並不是人類可讀的(它總是需要通過from_unixtime()或date_format()進行轉換,結果將是字符串,而不是datetime類型)。 相比之下,其他數據庫系統(如MySQL)具有

    5熱度

    1回答

    假設我們有以下的文本文件(df.show()命令的輸出): +----+---------+--------+ |col1| col2| col3| +----+---------+--------+ | 1|pi number|3.141592| | 2| e number| 2.71828| +----+---------+--------+ 現在我想讀/解析它作爲一個數據幀/

    0熱度

    2回答

    我想這是很容易... 在蜂巢/ SparkSQL,我該如何轉換unix時間戳[注1]爲timestamp 數據類型? (注1:也就是說,自1970年1月1日秒/分的毫秒數) 我想from_unixtime()會做到這一點,但它給回一個字符串 ,而不是一個時間戳。以下實驗說明了該問題 步驟0:製備 select from_unixtime(1508673584) as fut; 結果:

    1熱度

    1回答

    我正在用spark.wholeTextFiles()處理一個400MB的文件,並且我一直收到內存不足錯誤。我第一次使用這個API的文件夾總共有40MB,我想知道我的代碼是否適用於大文件,這是大文件的來源。 這是配置,我想我提供了足夠的RAM堆,但仍然沒有運氣,我只是閱讀的文件夾,然後寫下來與 files.saveAsTextFile("data/output/no") 和命令是 spark-s

    0熱度

    1回答

    讀取Spark文檔的第一個函數,它提到ignoreNulls會得到第一個非空值。 import org.apache.spark.sql.SparkSession import org.apache.spark.sql.functions._ import org.apache.spark.sql.expressions.{Window, WindowSpec} object tmp {

    1熱度

    1回答

    只選擇每n個元素減少星火據幀的大小 I V有一個org.apache.spark.sql.Dataframe = [t: double, S: long] 現在我想通過每2元,以減少據幀,與val n=2 結果應該是 你會如何解決這個問題? 我嘗試了插入第三列並使用模,但我無法解決它。

    0熱度

    1回答

    我使用下面的代碼來讀取Teradata的數據,但收到錯誤 val jdbcDF = spark.read .format("jdbc") .option("url",s"jdbc:teradata://${TeradataDBHost}/database=${TeradataDBDatabase}") .option("dbtable", TeradataDBData

    0熱度

    1回答

    優化在基於Yarn的羣集上部署的Spark Jobs的最佳方式是什麼? 。 尋找基於配置而非代碼級別的更改。我的問題是經典設計級別的問題,應該使用什麼方法來優化Spark Streaming或Spark SQL上開發的作業。