spark-dataframe

2熱度

2回答

如何將一組任意列轉換爲Mllib矢量？基本上，我有我的DataFrame的第一列有一個固定的名稱，然後是一些任意命名的列，每個列中都有Double值。像這樣： name | a | b | c | val1 | 0.0 | 1.0 | 1.0 | val2 | 2.0 | 1.0 | 5.0 | 可以是任何數量的列。我需要獲得以下數據集： final case class Values

0熱度

1回答

Apache Spark數量的執行程序

我在數據庫上有Spark應用程序，它在32個節點的集羣上運行，每個16個內核和30GB內存。我想改變一些會話配置，但無論我改變了什麼，我都無法再讓更多的執行者，然後32（如執行者頁面上看到火花ui）？這些CONFIGS我已經改變了： spark.executor.instances spark.executor.memory spark.executor.cores 因爲我讀的併發任務最大

1熱度

1回答

在S3存儲區訪問文件從pyspark

我想從pyspark代碼訪問存儲在S3存儲區中的文件。它給我附加的錯誤信息。使用本地存儲的文件時，該程序正常工作。我嘗試過使用s3：//，s3a：//和s3n：//但是它們都不起作用。代碼： ACCESS_KEY = "*********" SECRET_KEY = "**********" EncodedSecretKey = SECRET_KEY.replace("/", "%2F"

0熱度

1回答

火花DF到的Tableau TDE

要求：收件通過加載數據從SQL服務器創建使用火花我用這個外部jar文件提供 https://spark-packages.org/package/werneckpaiva/spark-to-tableau 並開始火花外殼如下面一個畫面提取物（.tde）一個DF spark-shell --driver-class-path D:\Spark\jdbc\sqljdbc_6.0\enu\jre7\s

2熱度

2回答

PySpark組中的中位數/分位數通過

我想計算Spark數據框上的組分位數（使用PySpark）。無論是近似還是精確的結果都可以。我更喜歡在groupBy/agg的上下文中使用的解決方案，以便我可以將其與其他PySpark聚合函數混合使用。如果由於某種原因無法實現，則採用不同的方法也可以。 This question是相關的，但並不指示如何使用approxQuantile作爲聚合函數。我也有權訪問percentile_approx

1熱度

1回答

sparklyr：spark_apply函數不能在集羣模式下工作

我組合了兩個具有不同行數的數據幀。使用cbind.na功能組合qpcR庫組合兩個數據幀。它顯示了在我的本地機器中正確使用spark_apply功能的結果。但是，在集羣模式下，它顯示如下錯誤。注意：單個數據框顯示集羣和本地的結果。 Error : Error: org.apache.spark.SparkException: Job aborted due to stage failure: Ta

1熱度

1回答

Spark 1.6以空值爆炸

我有一個Dataframe，我試圖展平。作爲該過程的一部分，我想將其分解，所以如果我有一列數組，則將使用數組的每個值創建一個單獨的行。我知道我可以使用爆炸函數。但是，我有一個問題，該列包含空值，我使用火花1.6。下面是數據類型和我想要什麼的例子：我的數據： id | ListOfRficAction| RficActionAttachment _________________________

0熱度

1回答

分組數據計算方差

我想要計算PySpark2中的分組數據對象上的方差。看看http://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html#pyspark.sql.GroupedData，我沒有看到任何內置的計算差異函數。是否有一種有效的方法來計算PySpark2中的GroupedData對象上的方差？這裏是我將如何計算平均值的示例代碼，最小值和最大值

0熱度

1回答

星火錯誤：異常線程「main」 java.lang.UnsupportedOperationException

我寫一個斯卡拉/火花程序，會發現該僱員的薪水最高。員工數據可以CSV文件形式提供，而薪金列有數千個逗號分隔符，並且還有一個$前綴，例如$ 74,628.00。爲了解決這個逗號和美元符號，我已經用Scala編寫這將分割每行一個解析器功能「」然後每一列映射到各個變量被分配到一個案例類。我的解析器程序看起來像下面。爲了消除逗號和美元符號，我使用替換函數將其替換爲空，然後最終將類型轉換爲Int。 de

1熱度

2回答

包含數組的Java spark數據框連接列

我有2個數據框df1和df2。 df1有1個字符串類型的列鍵 df1.show() key ---- k1 k2 k3 df2 has 2 columns df2.show() topic | keys ------------- t1 | [k1, k2] t2 | [pk1, pk2] 我想在df2.key中存在df1.key時加入2個數據幀。我看到以前的例