spark-dataframe

    2熱度

    2回答

    如何將一組任意列轉換爲Mllib矢量? 基本上,我有我的DataFrame的第一列有一個固定的名稱,然後是一些任意命名的列,每個列中都有Double值。 像這樣: name | a | b | c | val1 | 0.0 | 1.0 | 1.0 | val2 | 2.0 | 1.0 | 5.0 | 可以是任何數量的列。我需要獲得以下數據集: final case class Values

    0熱度

    1回答

    我在數據庫上有Spark應用程序,它在32個節點的集羣上運行,每個16個內核和30GB內存。我想改變一些會話配置,但無論我改變了什麼,我都無法再讓更多的執行者,然後32(如執行者頁面上看到火花ui)?這些CONFIGS我已經改變了: spark.executor.instances spark.executor.memory spark.executor.cores 因爲我讀的併發任務最大

    1熱度

    1回答

    我想從pyspark代碼訪問存儲在S3存儲區中的文件。它給我附加的錯誤信息。 使用本地存儲的文件時,該程序正常工作。 我嘗試過使用s3://,s3a://和s3n://但是它們都不起作用。 代碼: ACCESS_KEY = "*********" SECRET_KEY = "**********" EncodedSecretKey = SECRET_KEY.replace("/", "%2F"

    0熱度

    1回答

    要求:收件通過加載數據從SQL服務器創建使用火花 我用這個外部jar文件提供 https://spark-packages.org/package/werneckpaiva/spark-to-tableau 並開始火花外殼如下面一個畫面提取物(.tde)一個DF spark-shell --driver-class-path D:\Spark\jdbc\sqljdbc_6.0\enu\jre7\s

    2熱度

    2回答

    我想計算Spark數據框上的組分位數(使用PySpark)。無論是近似還是精確的結果都可以。我更喜歡在groupBy/agg的上下文中使用的解決方案,以便我可以將其與其他PySpark聚合函數混合使用。如果由於某種原因無法實現,則採用不同的方法也可以。 This question是相關的,但並不指示如何使用approxQuantile作爲聚合函數。 我也有權訪問percentile_approx

    1熱度

    1回答

    我組合了兩個具有不同行數的數據幀。使用cbind.na功能組合qpcR庫組合兩個數據幀。它顯示了在我的本地機器中正確使用spark_apply功能的結果。但是,在集羣模式下,它顯示如下錯誤。 注意:單個數據框顯示集羣和本地的結果。 Error : Error: org.apache.spark.SparkException: Job aborted due to stage failure: Ta

    1熱度

    1回答

    我有一個Dataframe,我試圖展平。作爲該過程的一部分,我想將其分解,所以如果我有一列數組,則將使用數組的每個值創建一個單獨的行。我知道我可以使用爆炸函數。但是,我有一個問題,該列包含空值,我使用火花1.6。下面是數據類型和我想要什麼的例子: 我的數據: id | ListOfRficAction| RficActionAttachment _________________________

    0熱度

    1回答

    我想要計算PySpark2中的分組數據對象上的方差。看看http://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html#pyspark.sql.GroupedData,我沒有看到任何內置的計算差異函數。 是否有一種有效的方法來計算PySpark2中的GroupedData對象上的方差? 這裏是我將如何計算平均值的示例代碼,最小值和最大值

    0熱度

    1回答

    我寫一個斯卡拉/火花程序,會發現該僱員的薪水最高。員工數據可以CSV文件形式提供,而薪金列有數千個逗號分隔符,並且還有一個$前綴,例如$ 74,628.00。 爲了解決這個逗號和美元符號,我已經用Scala編寫這將分割每行一個解析器功能「」然後每一列映射到各個變量被分配到一個案例類。 我的解析器程序看起來像下面。爲了消除逗號和美元符號,我使用替換函數將其替換爲空,然後最終將類型轉換爲Int。 de

    1熱度

    2回答

    我有2個數據框df1和df2。 df1有1個字符串類型的列鍵 df1.show() key ---- k1 k2 k3 df2 has 2 columns df2.show() topic | keys ------------- t1 | [k1, k2] t2 | [pk1, pk2] 我想在df2.key中存在df1.key時加入2個數據幀。我看到以前的例