使用Hadoop Pig生成多個輸出

我有這個文件包含Hadoop中的數據列表。我已經構建了一個簡單的Pig腳本，它通過ID號來分析文件，依此類推...使用Hadoop Pig生成多個輸出

我正在尋找的最後一步是這樣的：我想創建（存儲）每個唯一ID號的文件。所以這應該取決於一個小組步驟...但是，我不明白這是否可能（可能有一個自定義商店模塊？）。

有什麼想法？

感謝

丹尼爾

2011-03-11 Daniele

爲得到你需要將數據分配給一個變量輸出（文件或任何東西），那它如何與STORE工作。如果身份證是有限的和有限的，你可以FILTER他們一個接一個然後STORE他們。（我總是這樣做，約20-25的行動類型）。

但是，如果你需要得到每個唯一的id文件不好，然後製作2個文件。 1，其中整個數據按ID分組，1只有唯一的ID。然後嘗試生成1（或更多，如果你有太多）豬腳本FILTER BY該ID。但這是一個不好的解決方案。假設你會在豬腳本中分組10個ID，你將擁有（唯一ID號/ 10）豬腳本來運行。

請注意，Hdfs不善於處理太多的小文件。

編輯： 更好的解決方案是將GROUP和SORT通過唯一ID發送到一個大文件。然後，由於它的排序，你可以很容易地將內容與第三方腳本分開。

2011-03-12 11:14:15 frail

雖然記住什麼是說脆弱，MultiStorage，在PiggyBank，似乎是你在找什麼。

2011-03-14 18:00:14 Romain

回答