apache-spark

    1熱度

    3回答

    非常新的火花/斯卡拉。我想知道是否有一種簡單的方法來以列式方式聚合Array [Double]。這裏有一個例子: c1 c2 c3 ------------------------- 1 1 [1.0, 1.0, 3.4] 1 2 [1.0, 0,0, 4.3] 2 1 [0.0, 0.0, 0.0] 2 3 [1.2, 1.1, 1.1] 然後,一旦聚集,我會看起來像一個表

    -3熱度

    1回答

    我是Scala Spark中的程序員,但我需要在項目中使用PySpark在Python中執行某些操作。 我想知道如何在PySpark中使用自定義的行=>行圖轉換。 例如:我有一個數據幀是myDF: id x1, x2 1 5 3 2 4 6 3 9 10 我想這個數據幀轉換爲另一個數據幀,與各行上的地圖操作。 所以我設計了一個map函數,它將一行作爲輸入,並生成一個新行作爲輸出。所以這是

    3熱度

    1回答

    我使用的Bigtop 1.2.0流浪供應方運行良好,但是當我嘗試使用泊塢置備了以下錯誤顯示: 命令 $ ./docker-hadoop.sh -c 3 錯誤 Environment check... Check docker: Docker version 17.09.0-ce, build afdb6d4 Check docker-compose: docker-compose version

    0熱度

    1回答

    我有AWS EMR master node以下代碼片段將csv文件轉換爲實木複合地板文件。 %pyspark csv_path = "s3://<bucket>/file.csv" p_path = "s3://<bucket>/file.parquet" df = sqlContext.read.csv(csv_path, header=True, inferSchema=True)

    3熱度

    1回答

    我正在用databricks筆記本上的Spark數據集API編寫應用程序。 我有2個表格。一個是15億行,其次是250萬。兩個表都包含電信數據,並且使用國家代碼和數字的前5位完成連接。產量有550億行。問題是我有偏斜的數據(長時間運行的任務)。無論我如何重新分配數據集,由於散列鍵的分佈不均勻,我會得到長時間運行的任務。 我試着用廣播連接,試圖堅持在內存等大表分區..... 什麼是我選擇這裏?

    2熱度

    1回答

    我想用scala來訪問spark應用程序中的HIVE。 我的代碼: val hiveLocation = "hdfs://master:9000/user/hive/warehouse" val conf = new SparkConf().setAppName("SOME APP NAME").setMaster("local[*]").set("spark.sql.warehouse.dir

    2熱度

    2回答

    我想提高我的Spark Scala技能,我有這種情況下我找不到操作的方法,所以請指教! 我有原始數據如下圖所示波紋管是: 我要計算的數列的每個結果的百分比。例如。最後一個錯誤值是64,佔所有列值的百分比是多少。請注意,我用的sqlContext讀取原始數據Dataframes: 這裏是我的代碼: val df1 = df.groupBy(" Code") .agg(sum("count").al

    0熱度

    1回答

    我寫一個斯卡拉/火花程序,會發現該僱員的薪水最高。員工數據可以CSV文件形式提供,而薪金列有數千個逗號分隔符,並且還有一個$前綴,例如$ 74,628.00。 爲了解決這個逗號和美元符號,我已經用Scala編寫這將分割每行一個解析器功能「」然後每一列映射到各個變量被分配到一個案例類。 我的解析器程序看起來像下面。爲了消除逗號和美元符號,我使用替換函數將其替換爲空,然後最終將類型轉換爲Int。 de

    0熱度

    1回答

    我是火花和編程語言的新手。我需要一些幫助來解析基於每個標籤的XML文件。 這裏是我的小例子 輸入文件: XML File: <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="myfile.xsl" ?> <bookstore specialty="novel"> <book style="autobiograp

    5熱度

    1回答

    假設我們有以下的文本文件(df.show()命令的輸出): +----+---------+--------+ |col1| col2| col3| +----+---------+--------+ | 1|pi number|3.141592| | 2| e number| 2.71828| +----+---------+--------+ 現在我想讀/解析它作爲一個數據幀/