pyspark

1熱度

2回答

我有一個非常寬的數據框> 10,000列，我需要計算每個中的空值的百分比。現在我正在做： threshold=0.9 for c in df_a.columns[:]: if df_a[df_a[c].isNull()].count() >= (df_a.count()*threshold): # print(c) df_a=df_a.drop(c) 當然這

0熱度

2回答

在MacBook上安裝pyspark

我已經在Scala中使用了Spark很長時間了。現在我第一次使用pyspark。這是在Mac 首先，我使用暢達安裝pyspark安裝pyspark，它安裝pyspark 2.2.0 我自己安裝使用BREW安裝apache-SPARK樂馳，它似乎已經安裝Apache的火花2.2.0 但是當我運行pyspark，它轉儲出 /Users/me/anaconda/bin/pyspark: line 24:

0熱度

1回答

如果else語句在for循環附加到列表

我不明白爲什麼列表不會附加在pyspark。有人可以幫我看看我的代碼嗎？ import json input_file = sc.textFile("data.json") def extract_func(data): c_list = [] neighborhoods = data.get('neighborhoods', None) for n in

0熱度

1回答

[PY]星火SQL：合併兩個或更多的行根據不同的列值相等

我有以下的數據幀由group，n1有序，n2 +-----+--+--+------+------+ |group|n1|n2|n1_ptr|n2_ptr| +-----+--+--+------+------+ | 1| 0| 0| 1| 1| | 1| 1| 1| 2| 2| |

1熱度

1回答

[PY]星火SQL：多列sessionization

給定一個正龍i和數據幀 +-----+--+--+ |group|n1|n2| +-----+--+--+ | 1| 0| 0| | 1| 1| 1| | 1| 1| 5| | 1| 2| 2|

1熱度

1回答

使用SQL火花讀取與實木複合地板格式的非現有列

0熱度

1回答

在函數中保存gzip文件適用於rdd

我想以分佈的方式下載一堆gzip文件。我創建了一個列表，其中包含所有文件的url並使用spark對其進行並行化。在這個rdd上使用地圖，我下載了當前文件。然後我想將它保存在我的hdfs中，以便重新打開它並使用boto庫將它保存在amazones3中。作爲一個例子，這是我的代碼，我只是試圖下載文件並將其保存在我的hdfs目錄中，但是我得到了一個來自路徑的錯誤。 try: # For Py

0熱度

1回答

在字典中應用lambda函數時出現鍵錯誤

我有一個包含某些列的數據框df。我正在嘗試做一些事情，而我得到一個奇怪的錯誤，而不是我期待的結果。我的想法是爲dataframe列的每個不同值生成一個數值，並將這對"real_value" : "numeric_value"添加到字典中。全局字典，其中保存的結果是： dict_res = {} 我有一個功能是傳遞一個值和屬性名，獲取字典根據從全局字典「dict_res」的ATR，如果該值作

0熱度

2回答

pyspark streaming適合機器學習/科學計算嗎？

我是新來的火花，必須編寫一個流式應用程序，必須執行像快速傅里葉變換和一些機器學習的東西，如分類/迴歸與svms等我想在pyspark這樣做，因爲python的各種各樣的像numpy，scikit學習等模塊。我的問題是，是否有可能在流應用程序中做這樣的事情？據我所知，spark使用dstreams。這些流可以轉換爲像numpy數組或類似的東西，可以作爲python函數的輸入嗎？ THX

1熱度

1回答

S3 Bucket .txt.gz通過PySpark複製

我正在使用Python 2（在EMR上運行PySpark的Jupyter筆記本）。我試圖加載一些數據作爲數據框，以便映射/減少它並將其輸出到我自己的S3存儲桶。我通常使用這個命令： df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('fil