我想寫一個自定義加載udf在豬中用於加載目錄結構中的文件。pig load udf從幾個子目錄加載文件
目錄結構就像一個電子郵件目錄,它有一個名爲maildir的根目錄。在這裏我們有個別郵件持有者的子目錄。在每個mailaccount持有者目錄中有幾個子目錄,如收件箱,發送,垃圾等。
如:郵件目錄/ mailholdername1 /收件箱/ 1.txt的 郵件目錄/ mailholdername2 /發送/ 1.txt的
我想從所有mailerholdername子目錄只讀收件箱文件。
我無法理解:
- 什麼應該被傳遞到負載UDF爲參數
- 應如何整個目錄結構進行解析的只有各自的收件箱中的文件被讀取。
我要處理一個文件,並執行一些數據提取和加載它作爲一個record.Hence如果有10個文件,我得到有10個記錄 的關係。此外,我想要做的這些收件箱中的一些操作文件並提取一些數據。
您可以顯示迄今爲止所做的工作嗎? – rsp
實際上我已經通過核心java.be來完成此操作了,但是閱讀和處理abt 3 gb這樣的巨大文本文件是非常耗時的,因此我切換到了pig.But現在我無法完成第一步...數據是完全非結構化的。它像我們寫的一個正常的電子郵件文本文件。因此,我們不能直接加載它們,因爲沒有模式...所以我無法進一步移動.. –
嗨Shrey,你有答案。 –