2012-09-27 92 views
2

我是新來的豬。在豬中加載多個文件

在豬,我想加載多個文件與他們的名字時間戳。

如果我2012/02/12之間加載文件2012/02/19,以下作品

$START = "12" 
$END = "19" 
raw_data = load '/table/status/2012/02/{$START,$END}' using Loader() 

假設開始日期是2012/01/08和結束日期爲2012/01/04 ,如何更改代碼行?

感謝您的幫助!

回答

11

您所需要的範圍可以通過以下水珠被加載:

raw_data = load '/table/status/{2011/12/{29,3{0,1}},2012/01/0[1-4]}' using Loader() 

注意,那頭豬使用Hadoop的通配符,所以你可以用什麼取決於基礎HDFS的版本。這在0.20以下工作。

如果需要更復雜的範圍,那麼這種目錄枚舉方式可能會有點不靈活。因此,請考慮使用shell腳本按照建議收集您需要的目錄here