pyspark

1熱度

1回答

我想爲下面提到的數據類型創建模式，它是與udf一起使用它的字典列表，但是我收到了錯誤提及在下面。 Unexpected tuple %r with StructType [{'cumulativeDefaultbalance': 0, 'loanId': 13131, 'cumulativeEndingBalance': 4877.9918745262694, 'cumulativeContr

0熱度

1回答

替換pyspark數據框中的值

我是pyspark的新手，正在開發我的第一個火花項目，我面臨兩個問題。一）無法使用 df["col1"].show() ***TypeError: 'Column' object is not callable*** 二）無法與聚合值來取代值在我的火花像數據幀平均 Code: from pyspark import SparkConf, SparkContext from pyspa

1熱度

1回答

數據框中Apache中pyspark轉星火

我有一個數據幀df已結構如下： +-----+-----+-----+-------+ | s |col_1|col_2|col_...| +-----+-------------------+ | f1 | 0.0| 0.6| ... | | f2 | 0.6| 0.7| ... | | f3 | 0.5| 0.9| ... | | ...| ...| ...| ... | 我要

0熱度

1回答

得到錯誤使用Jupyter筆記本

sc = pyspark.SparkContext() sqlCxt = SQLContext(sc) df=sqlCxt.read.format("csv").option("delimiter","|").load("D:/SparkPy/u.item") 錯誤加載CSV文件到數據幀時：當我星火更新到2.2.0版本 ERROR:root:An unexpected error occu

0熱度

2回答

用Pyspark分析多個非文本文件

我有幾個.mat文件（matlab），我想用PySpark處理。但我不知道如何平行進行。這是我希望並行化的基本單線程設置。該代碼將生成列表，其中，每個內部列表具有任意長度的列表： filenames = ['1.mat','2.mat',...] output_lists = [None]*len(filenames) # will be a list of lists for i,file

0熱度

1回答

如何使用pyspark中的lambda創建值對？

我想RDD這樣的pyspark轉換：之前： [ [('169', '5'), ('2471', '6'), ('48516', '10')], [('58', '7'), ('163', '7')], [('172', '5'), ('186', '4'), ('236', '6')] ] 後： [ [('169', '5'), ('2471', '

1熱度

1回答

如何解決'DataFrame'對象沒有屬性'coalesce'？

在PySpark應用程序中，我試圖通過將數據框轉換爲熊貓來轉置數據框，然後我想將結果寫入csv文件。這是我正在做它： df = df.toPandas().set_index("s").transpose() df.coalesce(1).write.option("header", True).option("delimiter", ",").csv('dataframe') 時執行該腳本

0熱度

1回答

Pyspark在排序後返回RDD

如何在訂購操作後返回RDD。我想按一個值排序，獲得最高結果並按第二個值排序。例如， rdd = sc.parallelize([(1, "a", 10), (2, "b", 9), (3, "c", 8)]) res = rdd.takeOrdered(2, lambda x: x[0]) # sort on first value # sort on second value out

0熱度

1回答

Keras模型pyspark錯誤

我有一個keras模型已被醃製，如下面的博客中所述。 http://zachmoshe.com/2017/04/03/pickling-keras-models.html 什麼奇怪的是，當我跑的HTML文件上的模型，從蟒蛇開放（文件名）讀的時候，它的工作如預期。但是從pyspark讀取文件時對文件運行時，我收到以下錯誤： AttributeError("'Model' object has no

0熱度

1回答

將structtype中的所有字段轉換爲數組