2011-07-04 186 views
0

我在運行豬腳本/ map-reduce作業方面有幾個問題。Apache PIG問題

  1. 我知道,豬創造邏輯,物理,然後執行計劃它真的開始執行的map/reduce作業之前;我能夠使用命令解釋<alias_name>查看邏輯/物理計劃;但是,我如何查看執行計劃(我想列出計劃的不同地圖/減少任務)?在執行豬的過程中,我看到創建了許多作業(地圖/縮小對)。想要了解每項工作解決什麼問題。

  2. 是否有任何明確的指導,我可以用它來了解所創建的計劃,因爲什麼是特困是難以理解的。

  3. 我可以通過更改輸入文件塊的數量來更改地圖作業的數量。我是否也可以控制減少工作的數量?我如何設置減速器的數量?

  4. mapper/reducer節點中的默認堆內存大小是多少?哪些工作參數反映了這些?我可以通過-Xmx 1024m選項更改堆內存嗎?當我以這種方式設置堆內存時,我的作業常常失敗 - 可能會對可以提供的值有一些限制嗎?

非常感謝!

回答

2
  1. 有解釋產生的不同種類的計劃。給出一個目錄路徑而不是文件來從'解釋'中獲得所有3個計劃。

  2. 不知道。

  3. set default_parallel 10將設置減少作業數量,以10

  4. 它必須是在你的Hadoop設置。

+0

這也是值得注意的是,您可以設置號碼在陳述本身中,特定經營者的減排者。例如。 'B = A組由PARALLEL 18組成;' – HXCaine

2
  1. 「解釋(豬命令)」 ALIAS-NAME解釋實際規劃(在地圖方面減少作業)

  2. 別名將在MR任務組合在一起。在計劃階段本身,人們可以看到,所有別名都被分組到一個給定的MR中。當編寫聯接,groupby或「set default_parallel desired no」時,可以使用「USING PARALLEL desired_no」來控制reducer的數量。豬腳本的開始。

  3. 這取決於一個跑步豬在哪裏。 如果MRv1:集mapred.java.opts -Xmx 在mrv2:設置mapred.map.size,設置mapred.map.java.opts -Xmx