加載和分組記錄後,如何將這些分組記錄存儲爲多個文件,每個組(一個用戶ID)?如何使用Pig將分組記錄存儲到多個文件中?
records = LOAD 'input' AS (userid:int, ...);
grouped_records = GROUP records BY userid;
我使用Apache豬版本0.8.1-cdh3u3(rexported)
加載和分組記錄後,如何將這些分組記錄存儲爲多個文件,每個組(一個用戶ID)?如何使用Pig將分組記錄存儲到多個文件中?
records = LOAD 'input' AS (userid:int, ...);
grouped_records = GROUP records BY userid;
我使用Apache豬版本0.8.1-cdh3u3(rexported)
A = LOAD 'mydata' USING PigStorage() as (a, b, c);
STORE A INTO '/my/home/output' USING MultiStorage('/my/home/output','0', 'bz2', '\\t');
參數:
參考:GrepCode
的確,在Piggybank一個MultiStorage類不正是我想要的東西 - 它由一個指定的屬性拆分記錄(在我示例索引 '0'):
STORE records INTO 'output' USING org.apache.pig.piggybank.storage.MultiStorage('output', '0', 'none', ',');
嗯似乎MultiStorage在撲滿可能是我所期待的 http://svn.apache.org/viewvc/pig/trunk/contrib/piggybank/(?) java/src/main/java/org/apache/pig/piggybank/storage/MultiStorage.java?view = markup – thomers 2012-02-16 16:17:26