1
我已經配置了一個具有三個節點的Hadoop集羣。所有節點工作正常並連接。在多個節點中運行Pig腳本
我上傳了HDFS中的28 GB文件並執行Pig腳本來處理該文件。當我執行腳本。它僅在單節點中運行。
您能否給我建議並解釋爲什麼它只在單節點上運行?我在配置中丟失了什麼?
我正在使用Hadoop 2.2.0和Pig 0.12版本。
我已經配置了一個具有三個節點的Hadoop集羣。所有節點工作正常並連接。在多個節點中運行Pig腳本
我上傳了HDFS中的28 GB文件並執行Pig腳本來處理該文件。當我執行腳本。它僅在單節點中運行。
您能否給我建議並解釋爲什麼它只在單節點上運行?我在配置中丟失了什麼?
我正在使用Hadoop 2.2.0和Pig 0.12版本。
您是否嘗試在腳本中設置parallel
?您有三個節點,因此您可以嘗試設置爲parallel 3
。是有意義的與任何以下運算符的使用方式:
實施例:group x by y parallel 3;
你的文件是什麼格式?確保它是可拆分的。
還要檢查您的集羣是否正常工作並正確設置。例如,檢查任務跟蹤器(在YARN中的NodeManager)沒有失敗,請確保所有節點上的slaves
和master
文件都已正確設置(slaves
列出了所有從節點,master
列出了主節點)。
感謝您的快速響應。我沒有使用並行運算符。我的文件是用逗號分隔的。 – Bhagwant
那麼一個普通的CSV *文本文件? –
是的,我從MySQL導出它並存儲在HDFS中。在此之前,我已將其轉換爲Unix格式。 – Bhagwant