2016-09-09 50 views
1

你好,我有類似這樣a1,a2,..a8.和各該目錄的有多個文件,如加載多個文件到豬

bat-a1-0-0 
    bat-a1-0-1 
    bat-a1-1-0 
    bat-a1-1-1 
    ... 
    bat-a1-31-0 
    bat-a1-31-1 

和子目錄A2其類似

子目錄的目錄
bat-a2-0-0 
bat-a2-0-1 
bat-a2-1-0 
bat-a2-1-1 
... 
bat-a2-31-0 
bat-a2-31-1 

我爲了不讓事情複雜化而做的決定是使用多個LOAD語句來加載每個目錄,並找到一種方法讓UNION獲取所有內容。但我不知道如何使用Apache Pig version 0.10.0-cdh4.2.1加載每個目錄中的文件,因爲它們似乎不遵循簡單的模式。需要幫助謝謝。

回答

1

事實上,這可能比您想象的要簡單。如果你在pig中加載文件,你可以簡單地指向一個目錄,pig將遞歸加載所有文件。即使是那些可能深深嵌套的東西。

因此,解決辦法是:確保所有的數據是根據1(或幾個)目錄,並加載它們

+0

你的意思是,如果我只是加載的目錄,然後它會自動加載所有的子。 -directory和每個子目錄中的文件? – Jeremiah

+0

@Jeremiah確切地說,只是指您的加載命令中的目錄。 –