1
我想知道是否有一個UDF或可以以RC格式以分區方式存儲我的數據的東西。我知道有org.apache.pig.piggybank.storage.MultiStorage
,但它只適用於某些壓縮格式。我想以RC格式存儲數據,但使用MultiStorage提供的相同分區存儲結構。如何使用豬的RC格式存儲分區數據?
謝謝, 伊姆蒂亞茲
我想知道是否有一個UDF或可以以RC格式以分區方式存儲我的數據的東西。我知道有org.apache.pig.piggybank.storage.MultiStorage
,但它只適用於某些壓縮格式。我想以RC格式存儲數據,但使用MultiStorage提供的相同分區存儲結構。如何使用豬的RC格式存儲分區數據?
謝謝, 伊姆蒂亞茲
有無論是在存錢罐或一些其它替代可用沒有這樣的解決方案。我遇到過類似的問題。但由於其他一些要求而放棄實施。唯一可用的解決方案是擴展MultiStorage udf以提供RC存儲格式。
Twitter已經開源其RC文件存儲。你可以從中獲得幫助。 http://grepcode.com/file/repo1.maven.org/maven2/com.twitter.elephantbird/elephant-bird-rcfile/3.0.8/com/twitter/elephantbird/pig/store/RCFilePigStorage.java