2012-09-27 54 views

回答

3

Apache PIG不作爲存儲層。 PIG是一種腳本語言,它簡化了可以在Hadoop上運行的代碼的創建。 PIG腳本被編譯成一組提交給Hadoop的Hadoop MapReduce作業,其運行方式與任何其他MapReduce作業相同。

Hadoop執行數據存儲而不是PIG。

要回答你的問題:不,對輸入數據的大小沒有限制。只要輸入數據可以通過PIG加載函數進行分析,並且可以通過Hadoop InputFormats進行分割。

PIG腳本比標準Java Hadoop作業更容易編寫,而且PIG有很多聰明的優化,比如多查詢執行,這可以使您的複雜查詢更快地執行。

+0

是的,我確實需要知道 - 「輸入數據的大小沒有限制」。應該認爲理所當然?其餘部分沒問題,我的HDFS上有足夠的存儲空間,我的文件很容易被InputFormat識別。 –

+0

您僅限於您的硬件,網絡,內存,內核,刀片。不是由Apache PIG。你可以嘗試使用BLOCK壓縮LZO的SequenceFiles。 PIG默認不會這樣做,但在Piggy Bank中有一些。 – alexeipab