的Python：保存加入數據集---

我在星火（pySpark）和輸出連接的兩個數據集在VM Cloudera的URL路徑看起來喜歡這個的Python：保存加入數據集---

 (u'SomeThing', (u'ABC', u'500'))

我想做到以下幾點：定義提取並返回僅ABC功能，500我寫了這樣的

  def extract_lasttwo_cols(three_cols): 
      a,b,c = three_cols.split(',') 
      return b,c

功能，但在錯誤此函數結果「的元組對象沒有屬性分裂（）」

所以，我想將這個連接的數據集作爲文本文件保存在Cloudera VM上HDFS上的一個文件夾中。這是一個單節點虛擬機。我得到此代碼的語法錯誤

 joinedatasets.saveAsTextFile("joinSet.txt")

我意識到我們需要將它保存到HDFS URL。我的問題我們如何找到我需要保存的文件的HDFS url，並且它是保存的適當方法？

2017-04-15 Raghu

好吧，我只是嘗試了以下和它的工作，但稍有不同

  joinedatasets.saveAsTextFile("input/joinSet")

已經得到了保存五個TXT文件被命名爲

   part-00000, 
       part-00001 until part-00005

的每個文件

2017-04-15 20:00:56 Raghu

回答