2017-04-15 34 views
0

我在星火(pySpark)和輸出連接的兩個數據集在VM Cloudera的URL路徑看起來喜歡這個的Python:保存加入數據集---

 (u'SomeThing', (u'ABC', u'500')) 

我想做到以下幾點: 定義提取並返回僅ABC功能,500我寫了這樣的

  def extract_lasttwo_cols(three_cols): 
      a,b,c = three_cols.split(',') 
      return b,c 

功能,但在錯誤此函數結果「的元​​組對象沒有屬性分裂()」

所以, 我想將這個連接的數據集作爲文本文件保存在Cloudera VM上HDFS上的一個文件夾中。這是一個單節點虛擬機。我得到此代碼的語法錯誤

 joinedatasets.saveAsTextFile("joinSet.txt") 

我意識到我們需要將它保存到HDFS URL。我的問題 我們如何找到我需要保存的文件的HDFS url,並且它是保存的適當方法?

回答

0

好吧,我只是嘗試了以下和它的工作,但稍有不同

  joinedatasets.saveAsTextFile("input/joinSet") 

已經得到了保存五個TXT文件被命名爲

   part-00000, 
       part-00001 until part-00005 
的每個文件