pyspark

    0熱度

    1回答

    我計算TF和IDF: import argparse from os import system ### args parsing parser = argparse.ArgumentParser(description='runs TF/IDF on a directory of text docs') parser.add_argument("-i","--input", help

    1熱度

    1回答

    我想從pyspark代碼訪問存儲在S3存儲區中的文件。它給我附加的錯誤信息。 使用本地存儲的文件時,該程序正常工作。 我嘗試過使用s3://,s3a://和s3n://但是它們都不起作用。 代碼: ACCESS_KEY = "*********" SECRET_KEY = "**********" EncodedSecretKey = SECRET_KEY.replace("/", "%2F"

    0熱度

    1回答

    我有一個名爲'df1'的數據框,它有X行,假設爲1000.我想要做的是獲得該數據框的具體子採樣並保存爲另一個。例如,我想從'df1'中提取400到700行並將其保存爲'df2'。 我知道,一個可能的方式越來越「DF1」的內容與載體: list = df1.collect() subsample = list[400:700] df2 = sc.createDataFrame(subsample

    2熱度

    2回答

    我想計算Spark數據框上的組分位數(使用PySpark)。無論是近似還是精確的結果都可以。我更喜歡在groupBy/agg的上下文中使用的解決方案,以便我可以將其與其他PySpark聚合函數混合使用。如果由於某種原因無法實現,則採用不同的方法也可以。 This question是相關的,但並不指示如何使用approxQuantile作爲聚合函數。 我也有權訪問percentile_approx

    0熱度

    2回答

    我剛安裝pyspark 2.2.0使用暢達(在Windows上使用的Python V3.6 7 64位,JAVA V1.8) $conda install pyspark 它下載並似乎安裝正確無誤。現在,當我在命令行上運行pyspark時,它只是告訴我「系統找不到指定的路徑。」 $pyspark The system cannot find the path specified. The

    0熱度

    1回答

    我想在使用Hue的Oozie上運行一個簡單的python腳本。我使用的是安裝了所以我也加入了Cloudera管理器,火花的配置(火花服務高級配置片段(安全閥)的火花的conf/spark-env.sh) if [ -z "${PYSPARK_PYTHON}" ]; then export PYSPARK_PYTHON=/opt/cloudera/parcels/Anaconda/bin/pyth

    -3熱度

    1回答

    我是Scala Spark中的程序員,但我需要在項目中使用PySpark在Python中執行某些操作。 我想知道如何在PySpark中使用自定義的行=>行圖轉換。 例如:我有一個數據幀是myDF: id x1, x2 1 5 3 2 4 6 3 9 10 我想這個數據幀轉換爲另一個數據幀,與各行上的地圖操作。 所以我設計了一個map函數,它將一行作爲輸入,並生成一個新行作爲輸出。所以這是

    0熱度

    1回答

    我想要計算PySpark2中的分組數據對象上的方差。看看http://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html#pyspark.sql.GroupedData,我沒有看到任何內置的計算差異函數。 是否有一種有效的方法來計算PySpark2中的GroupedData對象上的方差? 這裏是我將如何計算平均值的示例代碼,最小值和最大值

    0熱度

    1回答

    我有AWS EMR master node以下代碼片段將csv文件轉換爲實木複合地板文件。 %pyspark csv_path = "s3://<bucket>/file.csv" p_path = "s3://<bucket>/file.parquet" df = sqlContext.read.csv(csv_path, header=True, inferSchema=True)

    0熱度

    1回答

    我想採用整數列表的RDD並將其減少到一個列表。例如... [1, 2, 3, 4] [2, 3, 4, 5] 到 [3, 5, 7, 9] 我可以使用Python中的zip功能,但不知道如何複製它在火花除了做收集對象上做到這一點,但我想保持rdd中的數據。