apache-spark

1熱度

3回答

非常新的火花/斯卡拉。我想知道是否有一種簡單的方法來以列式方式聚合Array [Double]。這裏有一個例子： c1 c2 c3 ------------------------- 1 1 [1.0, 1.0, 3.4] 1 2 [1.0, 0,0, 4.3] 2 1 [0.0, 0.0, 0.0] 2 3 [1.2, 1.1, 1.1] 然後，一旦聚集，我會看起來像一個表

-3熱度

1回答

使用自定義函數的Pyspark

我是Scala Spark中的程序員，但我需要在項目中使用PySpark在Python中執行某些操作。我想知道如何在PySpark中使用自定義的行=>行圖轉換。例如：我有一個數據幀是myDF： id x1, x2 1 5 3 2 4 6 3 9 10 我想這個數據幀轉換爲另一個數據幀，與各行上的地圖操作。所以我設計了一個map函數，它將一行作爲輸入，並生成一個新行作爲輸出。所以這是

3熱度

1回答

的Bigtop docker-hadoop.sh無法啓動

我使用的Bigtop 1.2.0流浪供應方運行良好，但是當我嘗試使用泊塢置備了以下錯誤顯示：命令 $ ./docker-hadoop.sh -c 3 錯誤 Environment check... Check docker: Docker version 17.09.0-ce, build afdb6d4 Check docker-compose: docker-compose version

0熱度

1回答

csv是否使用pyspark分發的實木複合地板？

我有AWS EMR master node以下代碼片段將csv文件轉換爲實木複合地板文件。 %pyspark csv_path = "s3://<bucket>/file.csv" p_path = "s3://<bucket>/file.parquet" df = sqlContext.read.csv(csv_path, header=True, inferSchema=True)

3熱度

1回答

如何平均分配數據集以避免歪斜的連接（和長時間運行的任務）？

我正在用databricks筆記本上的Spark數據集API編寫應用程序。我有2個表格。一個是15億行，其次是250萬。兩個表都包含電信數據，並且使用國家代碼和數字的前5位完成連接。產量有550億行。問題是我有偏斜的數據（長時間運行的任務）。無論我如何重新分配數據集，由於散列鍵的分佈不均勻，我會得到長時間運行的任務。我試着用廣播連接，試圖堅持在內存等大表分區..... 什麼是我選擇這裏？

2熱度

1回答

如何訪問Hive中的現有表？

我想用scala來訪問spark應用程序中的HIVE。我的代碼： val hiveLocation = "hdfs://master:9000/user/hive/warehouse" val conf = new SparkConf().setAppName("SOME APP NAME").setMaster("local[*]").set("spark.sql.warehouse.dir

2熱度

2回答

Spark：列值的百分比百分比

我想提高我的Spark Scala技能，我有這種情況下我找不到操作的方法，所以請指教！我有原始數據如下圖所示波紋管是：我要計算的數列的每個結果的百分比。例如。最後一個錯誤值是64，佔所有列值的百分比是多少。請注意，我用的sqlContext讀取原始數據Dataframes：這裏是我的代碼： val df1 = df.groupBy(" Code") .agg(sum("count").al

0熱度

1回答

星火錯誤：異常線程「main」 java.lang.UnsupportedOperationException

我寫一個斯卡拉/火花程序，會發現該僱員的薪水最高。員工數據可以CSV文件形式提供，而薪金列有數千個逗號分隔符，並且還有一個$前綴，例如$ 74,628.00。爲了解決這個逗號和美元符號，我已經用Scala編寫這將分割每行一個解析器功能「」然後每一列映射到各個變量被分配到一個案例類。我的解析器程序看起來像下面。爲了消除逗號和美元符號，我使用替換函數將其替換爲空，然後最終將類型轉換爲Int。 de

0熱度

1回答

如何處理XML數據集？

我是火花和編程語言的新手。我需要一些幫助來解析基於每個標籤的XML文件。這裏是我的小例子輸入文件： XML File: <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="myfile.xsl" ?> <bookstore specialty="novel"> <book style="autobiograp

5熱度

1回答

如何將show操作符的輸出讀回數據集？

假設我們有以下的文本文件（df.show()命令的輸出）： +----+---------+--------+ |col1| col2| col3| +----+---------+--------+ | 1|pi number|3.141592| | 2| e number| 2.71828| +----+---------+--------+ 現在我想讀/解析它作爲一個數據幀/