2016-10-14 47 views
0

我想使用豬腳本在HDFS中刪除我的文件的第一行和最後一行/最後一行。我試圖實現這個使用排名和它的工作,但我應該知道去除它的最後排名數字,但我的文件是動態的,它可以有更多或更少的行,對於這種情況下,我無法找到任何東西。請幫助使用豬腳本刪除文件的第一行和最後一行

編輯: 我的數據是巨大的,所以我不能創建架構並不能組他們使用MIN()如何實現這一目標?

回答

2

一旦您有Rank可用,您可以通過MIN和MAX eval函數的平均值得到您想排除的第一個和最後一個排名(即文件的第一行和最後一行)。這樣你就不需要對排名過濾器進行硬編碼。

  1. Eval function MAX
  2. Eval function MIN

注:這是豬的版本0.16.0。

+0

有沒有其他辦法來實現這一目標? – animal

+0

我的數據很大,我無法創建模式並對它們進行分組。在這種情況下,Min不適合我。 – animal

+1

警告,這將刪除您的負載的第一行或最後一行。如果使用load將文件加載到多個文件的目錄中,則需要更復雜的技巧才能獲得理想的結果! –

相關問題