2015-04-16 50 views
0

我正在寫什麼是一個很長的包含許多操作的Pig拉丁腳本。有時,操作的唯一目的是獲得中間關係X,後者轉換或富集到Y,其中X停止感興趣。 Pig是否保存了X(例如在內存或HDFS中),我應該擔心「釋放」X?或者這是豬和Hadoop之間的照顧?獎勵問題:如果在MapReduce上的Pig,Tez上的Pig和Spark上的Pig之間的運行時處理這些中間值時有任何有趣的差異,那麼瞭解這一點也不錯。Apache Pig - 處理中間值別名?

回答

1

豬使用延遲執行評估。懶惰評價的某些功能

  • 處理只是發生在DUMP/STORE命令
  • 允許重新排序優化
  • 內存流水線

豬解釋計算DAG一旦你提交你的查詢。您可以在grunt shell中使用EXPLAIN命令查看您使用豬的執行計劃。