2014-01-16 54 views
1

我已經配置了一個具有三個節點的Hadoop集羣。所有節點工作正常並連接。在多個節點中運行Pig腳本

我上傳了HDFS中的28 GB文件並執行Pig腳本來處理該文件。當我執行腳本。它僅在單節點中運行。

您能否給我建議並解釋爲什麼它只在單節點上運行?我在配置中丟失了什麼?

我正在使用Hadoop 2.2.0和Pig 0.12版本。

回答

1

您是否嘗試在腳本中設置parallel?您有三個節點,因此您可以嘗試設置爲parallel 3。是有意義的與任何以下運算符的使用方式:

  • 協同組
  • 加入語法
  • 限制
  • 順序
  • 不同

實施例:group x by y parallel 3;

你的文件是什麼格式?確保它是可拆分的。

還要檢查您的集羣是否正常工作並正確設置。例如,檢查任務跟蹤器(在YARN中的NodeManager)沒有失敗,請確保所有節點上的slavesmaster文件都已正確設置(slaves列出了所有從節點,master列出了主節點)。

+0

感謝您的快速響應。我沒有使用並行運算符。我的文件是用逗號分隔的。 – Bhagwant

+0

那麼一個普通的CSV *文本文件? –

+0

是的,我從MySQL導出它並存儲在HDFS中。在此之前,我已將其轉換爲Unix格式。 – Bhagwant