Q

Spark CollectAsMap

2015-04-22 53 views 7 likes

7

我想知道如何在Spark中使用collectAsMap。更具體地說，我想知道所有分區的數據聚合會在哪裏發生？聚集要麼發生在主人身上，要麼發生在工人身上。在第一種情況下，每個工作人員在主人上發送其數據，當主人從每個工作人員收集數據時，主人將彙總結果。在第二種情況下，工作人員負責彙總結果（在他們之間交換數據之後），然後將結果發送給主人。Spark CollectAsMap

對我來說，找到一種方法是非常重要的，因爲主人能夠獨立收集每個分區的數據，而無需工作人員交換數據。

2015-04-22 Χρήστος Μάλλιος

+0

在您的術語，我認爲你的意思是說驅動程序，而不是主人。驅動程序是將收集結果彙總並從Spark羣集發送的位置。 – Rich

A

回答

6

你可以在這裏看到他們是如何做collectAsMap的。由於RDD類型是一個元組，它看起來好像只是使用普通的RDD收集，然後將這些元組轉換成一個鍵值對映射。但是他們在評論中提到不支持multi-map，所以你需要在數據中進行1對1的鍵/值映射。

collectAsMap function

收集什麼做的是執行星火工作，並取回從工人每個分區的結果，並與司機減少/ CONCAT相聚合它們。

collect function

所以考慮到，應該是司機收集來自單獨每個分區中的數據，而無需工作人員交換數據進行collectAsMap的情況。

請注意，如果您在使用collectAsMap之前對RDD進行了轉換，導致混洗髮生，則可能有一箇中間步驟，導致工作人員在他們之間交換數據。查看你的集羣管理員的應用程序UI，以查看更多關於Spark如何執行你的應用程序的信息。

2015-04-22 20:50:30 Rich

1

首先，在所有操作中，RDD中存在的所有數據都將從不同的執行者/工作人員傳送到主/司機。收集和收集AsMap只會整理來自各個執行者/工作者的數據。這就是爲什麼總是建議不要使用收集，除非你沒有其他選擇。

我必須說，這是從性能角度考慮的最後一個集合。

collect：將返回結果作爲數組。
collectAsMap會將成對RDD的結果作爲Map集合返回。而且，由於它正在返回Map集合，您將只能獲得具有唯一鍵的對，並且將會刪除具有重複鍵的對。

問候，

Neeraj

2017-05-16 10:59:41

相關問題