pyspark

0熱度

2回答

mleap AttributeError：'管道'對象沒有屬性'serializeToBundle'

我在執行mleap repository的示例代碼時出現問題。我希望在腳本中運行代碼而不是jupyter筆記本（這是運行示例的方式）。我的腳本如下： ################################################################################## # start a local spark session # https://

0熱度

1回答

無法修復Pyspark：字段錯誤長度（％d）「％（len（obj），len（dataType.fields））

我對Pyspark比較陌生，我試圖找出一種特定類型的錯誤，被竊聽我 lines = sc.textFile('train.csv') from pyspark.sql.types import * 的train.csv存儲here：。這是一個有點龐大第一行包含列信息從數據的第一行設置模式。 fields = [StructField(field_name, StringType(), Tr

1熱度

1回答

OOzie中PySpark工作的主要類

我創建了一個pySpark工作，它的工作完全正確，提交通過spark-submit。現在，當我試圖通過Oozie它的失敗。我懷疑我輸入的字段有問題。 Oozie中的Spark Action需要這些字段。 Spark Master : local Mode : client Main class : DO I need to enter anything here as its Python +

0熱度

1回答

無法找到PySpark標準輸出日誌

我正在開發一個PySpark應用程序，我將其部署爲yarn-cluster模式。我已經給stdout作爲日誌流處理程序。我可以看到YARN UI中的日誌。但是，我無法在/ var/log/sparkapp/yarn下找到stdout日誌。我在那裏只看到stderr日誌。這可能是什麼原因？這是在應用程序日誌我的一部分 import logging import sys logger = lo

0熱度

2回答

pyspark動態列計算

下面是我的火花數據幀 a b c 1 3 4 2 0 0 4 1 0 2 2 0 我的輸出應該如下 a b c 1 3 4 2 0 2 4 1 -1 2 2 3 公式是prev(c)-b+a即4-2+0=2和2-4+1=-1 誰能幫我跨越這個障礙？

0熱度

1回答

星火流：卡夫卡組ID星火結構化流

我寫一個星火結構流應用Pyspark不允許從卡夫卡讀取數據。但是，Spark的當前版本是2.1.0，它不允許我將group id設置爲參數，並會爲每個查詢生成唯一的id。但卡夫卡連接是基於組的授權，需要預設的組標識。因此，是否有任何解決方法來建立連接而不需要更新Spark到2.2，因爲我的團隊不需要它。我的代碼： if __name__ == "__main__": spark =

1熱度

1回答

如何在pyspark的TF-IDF Dataframe上應用SVD

我已經應用了pyspark tf-idf函數並獲得以下結果。 | features | |----------| | (35,[7,9,11,12,19,26,33],[1.2039728043259361,1.2039728043259361,1.2039728043259361,1.6094379124341003,1.6094379124341003,1.6094379124341003

0熱度

1回答

如何選擇

我的數據是這樣 ID | Race | start | duration -------|---------| ------| --------- 234 | 1010 | turtle| 100 235 | 1010 | turtle| 101 236 | 1010 | turtle| 99 237 | 1010 | rabbit| 199 238 | 1010 | rabbit|

1熱度

1回答

PySpark中別名方法的用途是什麼？

雖然在Python學習星火，我無法理解這兩個alias方法及其使用的目的。該documentation顯示它被用來創建新名稱現有DataFrame的副本，然後它們連接在一起： >>> from pyspark.sql.functions import * >>> df_as1 = df.alias("df_as1") >>> df_as2 = df.alias("df_as2") >>> j

1熱度

1回答

如何在pyspark數據框中將groupby轉換爲reducebykey？

我已經用group和by函數寫了pyspark代碼。由於團隊的影響，我感覺性能受到影響。相反，我想使用reducebykey。但我對這個領域很陌生。請找我的情況之下，第1步：閱讀蜂巢表連接查詢數據直通sqlcontext，並存儲在數據幀第二步：輸入總列數是15.在這5個重點領域和其餘是數字值。第3步：除了上面的輸入列之外，還有幾列需要從數字列導出。幾列有默認值。第4步：我已經使用了grou