pyspark

    0熱度

    2回答

    我在執行mleap repository的示例代碼時出現問題。我希望在腳本中運行代碼而不是jupyter筆記本(這是運行示例的方式)。我的腳本如下: ################################################################################## # start a local spark session # https://

    0熱度

    1回答

    我對Pyspark比較陌生,我試圖找出一種特定類型的錯誤,被竊聽我 lines = sc.textFile('train.csv') from pyspark.sql.types import * 的train.csv存儲here:。這是一個有點龐大 第一行包含列信息從數據的第一行設置模式。 fields = [StructField(field_name, StringType(), Tr

    1熱度

    1回答

    我創建了一個pySpark工作,它的工作完全正確,提交通過spark-submit。現在,當我試圖通過Oozie它的失敗。我懷疑我輸入的字段有問題。 Oozie中的Spark Action需要這些字段。 Spark Master : local Mode : client Main class : DO I need to enter anything here as its Python +

    0熱度

    1回答

    我正在開發一個PySpark應用程序,我將其部署爲yarn-cluster模式。我已經給stdout作爲日誌流處理程序。我可以看到YARN UI中的日誌。但是,我無法在/ var/log/sparkapp/yarn下找到stdout日誌。我在那裏只看到stderr日誌。這可能是什麼原因? 這是在應用程序日誌我的一部分 import logging import sys logger = lo

    0熱度

    2回答

    下面是我的火花數據幀 a b c 1 3 4 2 0 0 4 1 0 2 2 0 我的輸出應該如下 a b c 1 3 4 2 0 2 4 1 -1 2 2 3 公式是prev(c)-b+a即4-2+0=2和2-4+1=-1 誰能幫我跨越這個障礙?

    0熱度

    1回答

    我寫一個星火結構流應用Pyspark不允許從卡夫卡讀取數據。 但是,Spark的當前版本是2.1.0,它不允許我將group id設置爲參數,並會爲每個查詢生成唯一的id。但卡夫卡連接是基於組的授權,需要預設的組標識。 因此,是否有任何解決方法來建立連接而不需要更新Spark到2.2,因爲我的團隊不需要它。 我的代碼: if __name__ == "__main__": spark =

    1熱度

    1回答

    我已經應用了pyspark tf-idf函數並獲得以下結果。 | features | |----------| | (35,[7,9,11,12,19,26,33],[1.2039728043259361,1.2039728043259361,1.2039728043259361,1.6094379124341003,1.6094379124341003,1.6094379124341003

    0熱度

    1回答

    我的數據是這樣 ID | Race | start | duration -------|---------| ------| --------- 234 | 1010 | turtle| 100 235 | 1010 | turtle| 101 236 | 1010 | turtle| 99 237 | 1010 | rabbit| 199 238 | 1010 | rabbit|

    1熱度

    1回答

    雖然在Python學習星火,我無法理解這兩個alias方法及其使用的目的。該documentation顯示它被用來創建新名稱現有DataFrame的副本,然後它們連接在一起: >>> from pyspark.sql.functions import * >>> df_as1 = df.alias("df_as1") >>> df_as2 = df.alias("df_as2") >>> j

    1熱度

    1回答

    我已經用group和by函數寫了pyspark代碼。由於團隊的影響,我感覺性能受到影響。相反,我想使用reducebykey。但我對這個領域很陌生。請找我的情況之下, 第1步:閱讀蜂巢表連接查詢數據直通sqlcontext,並存儲在數據幀 第二步:輸入總列數是15.在這5個重點領域和其餘是數字值。 第3步:除了上面的輸入列之外,還有幾列需要從數字列導出。幾列有默認值。 第4步:我已經使用了grou