我有這個文件包含Hadoop中的數據列表。我已經構建了一個簡單的Pig腳本,它通過ID號來分析文件,依此類推...使用Hadoop Pig生成多個輸出
我正在尋找的最後一步是這樣的:我想創建(存儲)每個唯一ID號的文件。所以這應該取決於一個小組步驟...但是,我不明白這是否可能(可能有一個自定義商店模塊?)。
有什麼想法?
感謝
丹尼爾
我有這個文件包含Hadoop中的數據列表。我已經構建了一個簡單的Pig腳本,它通過ID號來分析文件,依此類推...使用Hadoop Pig生成多個輸出
我正在尋找的最後一步是這樣的:我想創建(存儲)每個唯一ID號的文件。所以這應該取決於一個小組步驟...但是,我不明白這是否可能(可能有一個自定義商店模塊?)。
有什麼想法?
感謝
丹尼爾
爲得到你需要將數據分配給一個變量輸出(文件或任何東西),那它如何與STORE
工作。如果身份證是有限的和有限的,你可以FILTER
他們一個接一個然後STORE
他們。 (我總是這樣做,約20-25的行動類型)。
但是,如果你需要得到每個唯一的id文件不好,然後製作2個文件。 1,其中整個數據按ID分組,1只有唯一的ID。然後嘗試生成1(或更多,如果你有太多)豬腳本FILTER BY該ID。但這是一個不好的解決方案。假設你會在豬腳本中分組10個ID,你將擁有(唯一ID號/ 10)豬腳本來運行。
請注意,Hdfs不善於處理太多的小文件。
編輯: 更好的解決方案是將GROUP和SORT通過唯一ID發送到一個大文件。然後,由於它的排序,你可以很容易地將內容與第三方腳本分開。
雖然記住什麼是說脆弱,MultiStorage,在PiggyBank,似乎是你在找什麼。