2014-07-17 58 views
0

試圖在豬閱讀Hive文件使用http://pig.apache.org/docs/r0.8.1/api/org/apache/pig/piggybank/storage/HiveColumnarLoader.html閱讀斯納皮壓縮蜂房RCFile在Apache的豬

外商投資企業在其開始RCFSnappyCodechive.io.rcfile.column.number的話,他們是二進制文件。此外,它們被分割到多個目錄中(如/day=20140701)。

但是,簡單的加載,分組和計數行腳本不會輸出任何內容。如果我嘗試添加「說明」是這樣的:

rows = LOAD ... using HiveColumnarLoader ...; 
ILLUSTRATE rows; 

我得到的錯誤是這樣的:

2014-07-17 14:16:43,086 [main] ERROR org.apache.pig.pen.AugmentBaseDataVisitor - No (valid) input data found! 
java.lang.RuntimeException: No (valid) input data found! 
    at org.apache.pig.pen.AugmentBaseDataVisitor.visit(AugmentBaseDataVisitor.java:583) 
    at org.apache.pig.newplan.logical.relational.LOLoad.accept(LOLoad.java:229) 
    at org.apache.pig.pen.util.PreOrderDepthFirstWalker.depthFirst(PreOrderDepthFirstWalker.java:82) 
    at org.apache.pig.pen.util.PreOrderDepthFirstWalker.walk(PreOrderDepthFirstWalker.java:66) 
    at org.apache.pig.newplan.PlanVisitor.visit(PlanVisitor.java:52) 
    at org.apache.pig.pen.ExampleGenerator.getExamples(ExampleGenerator.java:180) 
    at org.apache.pig.PigServer.getExamples(PigServer.java:1180) 
... 

我不知道,是否因爲斯納皮壓縮或者一些麻煩指定架構(我從配置單元複製它,描述表格)。

任何人都可以請確認HiveColumnarLoader與快速壓縮文件一起工作還是提出另一種方法?

在此先感謝!

回答

0

您是否試過HCatLoader?

rows = LOAD'tablename'using org.apache.hcatalog.pig.HCatLoader();