Apache Pig：如何加載存儲在hdfs中的序列文件？

我的序列文件直接存儲在HDFS例如爲：Apache Pig：如何加載存儲在hdfs中的序列文件？

grunt> ls 
grunt> ls /blabla 
hdfs://namenode1:54310/blabla/0411f03a-db7f-48d0-9542-5203304e3e81.seq<r 3> 185284523 
hdfs://namenode1:54310/blabla/05be8fc0-e967-42e1-b76a-0d7108a69d17.seq<r 3> 201489688 
hdfs://namenode1:54310/blabla/06222427-519c-49c0-bbbf-49a9f43bbd13.seq<r 3> 196858576 
hdfs://namenode1:54310/blabla/066da26a-48da-45b1-83f5-60d16475e40d.seq<r 3> 194832641 
hdfs://namenode1:54310/blabla/07cbfc83-42a2-47bf-b364-d39da3a2d071.seq<r 3> 194806047 
hdfs://namenode1:54310/blabla/10dea7b8-9ed3-4e66-b4bd-a3c07d8bf39e.seq<r 3> 166224702

如何創建一個豬腳本，從目錄「布拉布拉」讀取每個文件和執行行動？

我試過多種方式加載那些工作的投入，但沒有：

%default INPUT '/blabla/f8fbbe9a-aae3-413f-b3b9-37cdef71da8f.seq' 
%default INPUT 'hdfs://namenode1:54310/blabla/f8fbbe9a-aae3-413f-b3b9-37cdef71da8f.seq' 
%default INPUT 'f8fbbe9a-aae3-413f-b3b9-37cdef71da8f.seq'

我總是得到錯誤：

輸入（S）：

Failed to read data from "hdfs://namenode1:54310/........."

來源

2015-10-13 mr.proton

難道你可以這樣試試：

%default INPUT 'hdfs://namenode1:54310/blabla/*'

？

它應該工作，如果你的.seq文件是可讀的。看起來他們不是，因爲你的嘗試應該加載一個文件。可以 - 你給完整的日誌行嗎？

也許你將不得不使用pig SequenceFileLoader。

來源

2015-10-13 13:46:53 AntonyBrd

你說得對。這是一個許可問題。％default INPUT'hdfs：// namenode1：54310/blabla/*'正常 –

您可以嘗試讀取序列文件在以下方面：

豬SequenceFileLoader：

A = LOAD 'hdfs://namenode1:54310/blabla/*' using org.apache.pig.piggybank.storage.SequenceFileLoader();

（或者）使用象鳥：

REGISTER 'elephant-bird-pig-3.0.5.jar'; 
REGISTER 'elephant-bird-core-4.1.jar'; 
REGISTER 'elephant-bird-hadoop-compat-4.1.jar'; 
A = LOAD 'hdfs://namenode1:54310/blabla/*' using com.twitter.elephantbird.pig.load.SequenceFileLoader();

來源

2015-10-13 15:29:11 Learner

Apache Pig：如何加載存儲在hdfs中的序列文件？

回答

相關問題