加盟Pyspark兩個文件，而無需使用sparksql/dataframes

我有兩個文件，客戶和銷售像下面加盟Pyspark兩個文件，而無需使用sparksql/dataframes

客戶：

cu_id名區市州
1拉胡爾ME Vizag的AP
2 Raghu SE HYD TS
3 Rohith ME BNLR KA

銷售：

SA_ID銷售國家
2 100000 IND
3 230000美國
4 240000英國

這兩個文件\ t分隔。我想根據來自customer的cu_id和來自銷售的sa_id使用pyspark和out使用sparksql/dataframes來加入這兩個文件。

非常感謝您的幫助。

來源

2016-06-08 Kumar_123

您肯定可以使用join方法，Spark可以提供有關RDD的工作方式。

你可以這樣做：

customerRDD = sc.textFile("customers.tsv").map(lambda row: (row.split('\t')[0], "\t".join(row.split('\t')[1:]))) 
salesRDD = sc.textFile("sales.tsv").map(lambda row: (row.split('\t')[0], "\t".join(row.split('\t')[1:]))) 

joinedRDD = customerRDD.join(salesRDD)

，你會得到一個新的RDD包含來自客戶和銷售文件的唯一加盟的記錄。

來源

2016-06-08 13:03:49

加盟Pyspark兩個文件，而無需使用sparksql/dataframes

回答

相關問題