pyspark

0熱度

1回答

變換RDD到有效的輸入，使用包含與下面的代碼CSV文件的目錄的火花mllib算法k均值

我計算TF和IDF： import argparse from os import system ### args parsing parser = argparse.ArgumentParser(description='runs TF/IDF on a directory of text docs') parser.add_argument("-i","--input", help

1熱度

1回答

在S3存儲區訪問文件從pyspark

我想從pyspark代碼訪問存儲在S3存儲區中的文件。它給我附加的錯誤信息。使用本地存儲的文件時，該程序正常工作。我嘗試過使用s3：//，s3a：//和s3n：//但是它們都不起作用。代碼： ACCESS_KEY = "*********" SECRET_KEY = "**********" EncodedSecretKey = SECRET_KEY.replace("/", "%2F"

0熱度

1回答

如何提取數據框的具體子樣本並保存在pyspark中的另一個數據框中？

我有一個名爲'df1'的數據框，它有X行，假設爲1000.我想要做的是獲得該數據框的具體子採樣並保存爲另一個。例如，我想從'df1'中提取400到700行並將其保存爲'df2'。我知道，一個可能的方式越來越「DF1」的內容與載體： list = df1.collect() subsample = list[400:700] df2 = sc.createDataFrame(subsample

2熱度

2回答

PySpark組中的中位數/分位數通過

我想計算Spark數據框上的組分位數（使用PySpark）。無論是近似還是精確的結果都可以。我更喜歡在groupBy/agg的上下文中使用的解決方案，以便我可以將其與其他PySpark聚合函數混合使用。如果由於某種原因無法實現，則採用不同的方法也可以。 This question是相關的，但並不指示如何使用approxQuantile作爲聚合函數。我也有權訪問percentile_approx

0熱度

2回答

pyspark：系統找不到指定的路徑

我剛安裝pyspark 2.2.0使用暢達（在Windows上使用的Python V3.6 7 64位，JAVA V1.8） $conda install pyspark 它下載並似乎安裝正確無誤。現在，當我在命令行上運行pyspark時，它只是告訴我「系統找不到指定的路徑。」 $pyspark The system cannot find the path specified. The

0熱度

1回答

在oozie中添加pyspark python路徑

我想在使用Hue的Oozie上運行一個簡單的python腳本。我使用的是安裝了所以我也加入了Cloudera管理器，火花的配置（火花服務高級配置片段（安全閥）的火花的conf/spark-env.sh） if [ -z "${PYSPARK_PYTHON}" ]; then export PYSPARK_PYTHON=/opt/cloudera/parcels/Anaconda/bin/pyth

-3熱度

1回答

使用自定義函數的Pyspark

我是Scala Spark中的程序員，但我需要在項目中使用PySpark在Python中執行某些操作。我想知道如何在PySpark中使用自定義的行=>行圖轉換。例如：我有一個數據幀是myDF： id x1, x2 1 5 3 2 4 6 3 9 10 我想這個數據幀轉換爲另一個數據幀，與各行上的地圖操作。所以我設計了一個map函數，它將一行作爲輸入，並生成一個新行作爲輸出。所以這是

0熱度

1回答

分組數據計算方差

我想要計算PySpark2中的分組數據對象上的方差。看看http://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html#pyspark.sql.GroupedData，我沒有看到任何內置的計算差異函數。是否有一種有效的方法來計算PySpark2中的GroupedData對象上的方差？這裏是我將如何計算平均值的示例代碼，最小值和最大值

0熱度

1回答

csv是否使用pyspark分發的實木複合地板？

我有AWS EMR master node以下代碼片段將csv文件轉換爲實木複合地板文件。 %pyspark csv_path = "s3://<bucket>/file.csv" p_path = "s3://<bucket>/file.parquet" df = sqlContext.read.csv(csv_path, header=True, inferSchema=True)

0熱度

1回答

在pyspark中按元素添加列表

我想採用整數列表的RDD並將其減少到一個列表。例如... [1, 2, 3, 4] [2, 3, 4, 5] 到 [3, 5, 7, 9] 我可以使用Python中的zip功能，但不知道如何複製它在火花除了做收集對象上做到這一點，但我想保持rdd中的數據。