在多個節點中運行Pig腳本

我已經配置了一個具有三個節點的Hadoop集羣。所有節點工作正常並連接。在多個節點中運行Pig腳本

我上傳了HDFS中的28 GB文件並執行Pig腳本來處理該文件。當我執行腳本。它僅在單節點中運行。

您能否給我建議並解釋爲什麼它只在單節點上運行？我在配置中丟失了什麼？

我正在使用Hadoop 2.2.0和Pig 0.12版本。

2014-01-16 Bhagwant

您是否嘗試在腳本中設置parallel？您有三個節點，因此您可以嘗試設置爲parallel 3。是有意義的與任何以下運算符的使用方式：

實施例：group x by y parallel 3;

你的文件是什麼格式？確保它是可拆分的。

還要檢查您的集羣是否正常工作並正確設置。例如，檢查任務跟蹤器（在YARN中的NodeManager）沒有失敗，請確保所有節點上的slaves和master文件都已正確設置（slaves列出了所有從節點，master列出了主節點）。

2014-01-16 13:51:39

感謝您的快速響應。我沒有使用並行運算符。我的文件是用逗號分隔的。 – Bhagwant

那麼一個普通的CSV *文本文件？ –

是的，我從MySQL導出它並存儲在HDFS中。在此之前，我已將其轉換爲Unix格式。 – Bhagwant

回答