2017-05-08 57 views
0

我有以下作業需要一個順序文件的行數。當在多個節點上運行例如4時,我得到4個不同的行數。我將如何去輸出行數只有一行。Aggregater Stage輸出不正確的行數

源 - >變壓器(這有一個空行計數) - >聚合階段 - >順序文件

任何幫助將不勝感激!謝謝!

+0

聚合器階段需要用於分組的鍵列。如果分區類型保留爲auto,則將在這些鍵列上完成數據分區。所以問題不是因爲多節點。從您的聲明中,我認爲您使用該虛擬行作爲關鍵。確保虛擬行在所有行中具有相同的值。然後只有所有的行都會進入同一分區,並且您將得到一行總行數。 – adhithiyan

回答

0

您可以將聚合器階段的執行模式設置爲Sequential(Stage-Advanced選項卡)。如果作業不處理大量數據,則可能不會遇到太多性能下降的問題。如果您處理大量數據,則將聚合器保留爲並行,然後添加另一個聚合器並將THAT設置爲順序而不是更合理