pyspark

    1熱度

    2回答

    我有一個非常寬的數據框> 10,000列,我需要計算每個中的空值的百分比。現在我正在做: threshold=0.9 for c in df_a.columns[:]: if df_a[df_a[c].isNull()].count() >= (df_a.count()*threshold): # print(c) df_a=df_a.drop(c) 當然這

    0熱度

    2回答

    我已經在Scala中使用了Spark很長時間了。現在我第一次使用pyspark。這是在Mac 首先,我使用暢達安裝pyspark安裝pyspark,它安裝pyspark 2.2.0 我自己安裝使用BREW安裝apache-SPARK樂馳,它似乎已經安裝Apache的火花2.2.0 但是當我運行pyspark,它轉儲出 /Users/me/anaconda/bin/pyspark: line 24:

    0熱度

    1回答

    我不明白爲什麼列表不會附加在pyspark。有人可以幫我看看我的代碼嗎? import json input_file = sc.textFile("data.json") def extract_func(data): c_list = [] neighborhoods = data.get('neighborhoods', None) for n in

    0熱度

    1回答

    我有以下的數據幀由group,n1有序,n2 +-----+--+--+------+------+ |group|n1|n2|n1_ptr|n2_ptr| +-----+--+--+------+------+ | 1| 0| 0| 1| 1| | 1| 1| 1| 2| 2| |

    1熱度

    1回答

    給定一個正龍i和數據幀 +-----+--+--+ |group|n1|n2| +-----+--+--+ | 1| 0| 0| | 1| 1| 1| | 1| 1| 5| | 1| 2| 2|

    1熱度

    1回答

    我有2個月拼花文件2017_01.parquet和2017_08.parquet和那些模式是: 2017_01.parquet: root |-- value: struct (nullable = true) | |-- version: struct (nullable = true) | | |-- major: integer (nullable = true) | | |-- m

    0熱度

    1回答

    我想以分佈的方式下載一堆gzip文件。我創建了一個列表,其中包含所有文件的url並使用spark對其進行並行化。在這個rdd上使用地圖,我下載了當前文件。然後我想將它保存在我的hdfs中,以便重新打開它並使用boto庫將它保存在amazones3中。 作爲一個例子,這是我的代碼,我只是試圖下載文件並將其保存在我的hdfs目錄中,但是我得到了一個來自路徑的錯誤。 try: # For Py

    0熱度

    1回答

    我有一個包含某些列的數據框df。我正在嘗試做一些事情,而我得到一個奇怪的錯誤,而不是我期待的結果。 我的想法是爲dataframe列的每個不同值生成一個數值,並將這對"real_value" : "numeric_value"添加到字典中。 全局字典,其中保存的結果是: dict_res = {} 我有一個功能是傳遞一個值和屬性名,獲取字典根據從全局字典「dict_res」的ATR,如果該值作

    0熱度

    2回答

    我是新來的火花,必須編寫一個流式應用程序,必須執行像快速傅里葉變換和一些機器學習的東西,如分類/迴歸與svms等我想在pyspark這樣做,因爲python的各種各樣的像numpy,scikit學習等模塊。我的問題是,是否有可能在流應用程序中做這樣的事情?據我所知,spark使用dstreams。這些流可以轉換爲像numpy數組或類似的東西,可以作爲python函數的輸入嗎? THX

    1熱度

    1回答

    我正在使用Python 2(在EMR上運行PySpark的Jupyter筆記本)。我試圖加載一些數據作爲數據框,以便映射/減少它並將其輸出到我自己的S3存儲桶。 我通常使用這個命令: df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('fil