0
我在星火(pySpark)和輸出連接的兩個數據集在VM Cloudera的URL路徑看起來喜歡這個的Python:保存加入數據集---
(u'SomeThing', (u'ABC', u'500'))
我想做到以下幾點: 定義提取並返回僅ABC功能,500我寫了這樣的
def extract_lasttwo_cols(three_cols):
a,b,c = three_cols.split(',')
return b,c
功能,但在錯誤此函數結果「的元組對象沒有屬性分裂()」
所以, 我想將這個連接的數據集作爲文本文件保存在Cloudera VM上HDFS上的一個文件夾中。這是一個單節點虛擬機。我得到此代碼的語法錯誤
joinedatasets.saveAsTextFile("joinSet.txt")
我意識到我們需要將它保存到HDFS URL。我的問題 我們如何找到我需要保存的文件的HDFS url,並且它是保存的適當方法?