Apache Pig對輸入數據大小有任何限制嗎？

使用TeraBytes數據和典型的數據過濾問題時，Apache PIG是正確的選擇嗎？還是有一個自定義的MapReduce代碼來完成這項工作會更好。Apache Pig對輸入數據大小有任何限制嗎？

2012-09-27 Arun A K

Apache PIG不作爲存儲層。 PIG是一種腳本語言，它簡化了可以在Hadoop上運行的代碼的創建。 PIG腳本被編譯成一組提交給Hadoop的Hadoop MapReduce作業，其運行方式與任何其他MapReduce作業相同。

Hadoop執行數據存儲而不是PIG。

要回答你的問題：不，對輸入數據的大小沒有限制。只要輸入數據可以通過PIG加載函數進行分析，並且可以通過Hadoop InputFormats進行分割。

PIG腳本比標準Java Hadoop作業更容易編寫，而且PIG有很多聰明的優化，比如多查詢執行，這可以使您的複雜查詢更快地執行。

2012-09-27 09:40:29 alexeipab

是的，我確實需要知道 - 「輸入數據的大小沒有限制」。應該認爲理所當然？其餘部分沒問題，我的HDFS上有足夠的存儲空間，我的文件很容易被InputFormat識別。 –

您僅限於您的硬件，網絡，內存，內核，刀片。不是由Apache PIG。你可以嘗試使用BLOCK壓縮LZO的SequenceFiles。 PIG默認不會這樣做，但在Piggy Bank中有一些。 – alexeipab

回答