pyspark-sql

1熱度

1回答

我的輸入數據框看起來像下面 from pyspark.sql import SparkSession spark = SparkSession.builder.appName("Basics").getOrCreate() df=spark.createDataFrame(data=[('Alice',4.300,None),('Bob',float('nan'),897)],schema=

0熱度

1回答

在Pyspark中使用where子句的更新列

如何使用where子句更新Pyspark數據框中的列？這是類似於此的SQL操作： UPDATE table1 SET alpha1= x WHERE alpha2< 6; 其中α1和α2是表1的列。對於如：我有以下值的數據幀表1： table1 alpha1 alpha2 3 7 4 5 5 4 6 8 dataframe Table1 after u

0熱度

1回答

Pyspark：寫入csv寫入實木複合地板而不是csv

在下面的代碼中，out.csv採用實木複合地板格式。我錯過了什麼選項將其作爲csv文件編寫？ import py4j from pyspark import SparkConf, SparkContext from pyspark import HiveContext as hc import os from pyspark.sql import SQLContext, Row fro

0熱度

1回答

如何使用pyspark讀取orc文件

有兩種壓縮文件格式供spark使用。一個是實木複合地板，它很容易閱讀： from pyspark.sql import HiveContext hiveCtx = HiveContext(sc) hiveCtx.parquetFile(parquetFile) 但是用於ocr文件。我無法找到一個很好的例子來向我展示如何使用pyspark閱讀。

0熱度

1回答

Spark SQL：在WHERE子句中指定從UDF生成的列名

我已經編寫了一個UDF函數，它將在處理2列後返回一列（0或1）。我需要我的選擇查詢，使其返回那些記錄此值爲1 我寫的查詢如下： SELECT number, myUDF(col1, col2) as result FROM mytable WHERE result is not null 但是它不能識別列名「結果」。是否有任何特殊的語法來識別這個新的輸出列？謝謝。

0熱度

1回答

如何將數據幀的輸出寫入pyspark的CSV文件

我正在使用pyspark進行迴歸分類算法。我想將模型輸出保存到CSV文件中。我已經使用dataframe.savaAstextFile（'hdfs：// a/b/x'），但它會拋出一個錯誤，指出saveAstextFile屬性不在列表中。請參閱下面的代碼和通知： from __future__ import print_function from pyspark import SparkCont

0熱度

1回答

pyspark - 遍歷文件並替換數據框中的值

我需要讀取文件並在s3路徑中替換該值。我能夠遍歷該文件，但無法替換該值。 File ending with \n /MTD_avg_cust_bal1 /MTDSumOfCustomerInitiatedTrxns1 /MTDCountOfCustomerInitiatedTrxns1 代碼： metrics = open("Output.txt","r") line = metric

3熱度

1回答

使用Python的reduce（）加入多個PySpark數據框

有誰知道爲什麼在加入多個PySpark數據框時使用Python3的functools.reduce()會導致性能下降，而不是使用for循環迭代地加入相同的數據框？而這一個沒有 def join_dataframes(list_of_join_columns, left_df, right_df): return left_df.join(right_df, on=list_of_join

2熱度

1回答

如何篩選在同一列pyspark SQL

-4熱度

2回答

嵌套字典蟒蛇

提取所有組合我有一個像一本字典： {'6400': {'6401': '1.0', '6407': '0.3333333333333333', '6536': '0.0', '6448': '0.0'}} 而且我想同類產品，以最好Pyspark的結構： ('6400',['6400','6401','1.0']) ('6400',['6400','6407','0.3333333333333