2016-06-08 35 views
0

我有兩個文件,客戶和銷售像下面加盟Pyspark兩個文件,而無需使用sparksql/dataframes

客戶:

cu_id名區市州
1拉胡爾ME Vizag的AP
2 Raghu SE HYD TS
3 Rohith ME BNLR KA

銷售:

SA_ID銷售國家
2 100000 IND
3 230000美國
4 240000英國

這兩個文件\ t分隔。 我想根據來自customer的cu_id和來自銷售的sa_id使用pyspark和out使用sparksql/dataframes來加入這兩個文件。

非常感謝您的幫助。

回答

0

您肯定可以使用join方法,Spark可以提供有關RDD的工作方式。

你可以這樣做:

customerRDD = sc.textFile("customers.tsv").map(lambda row: (row.split('\t')[0], "\t".join(row.split('\t')[1:]))) 
salesRDD = sc.textFile("sales.tsv").map(lambda row: (row.split('\t')[0], "\t".join(row.split('\t')[1:]))) 

joinedRDD = customerRDD.join(salesRDD) 

,你會得到一個新的RDD包含來自客戶和銷售文件的唯一加盟的記錄。

相關問題