星火foreachpartition連接改進

我已經寫了火花工作，這確實低於操作星火foreachpartition連接改進

當我運行這個工作它創建了三個階段的火花

第一階段 - 它需要近45秒。執行不同的第二階段 - mapToPair和reducebykey =需要1.5分鐘

第三階段=需要19分鐘

我做了什麼

其採取更多比整個工作時間的60％多

我在foreachPartition中創建了SNS/SQS連接，以減少連接。我們是否有更好的方法

我不能對駕駛員創建連接對象，因爲這些不是序列

我沒有使用5克執行人9號，executore核心15，司機2G內存，執行內存

我使用16芯64演出存儲器簇大小1個主9從所有相同的結構 EMR部署火花1.6

2017-02-02 Sam

你確定'創建一個AWS SNS和SQS客戶端連接 '正在60％的工作時間或'發佈記錄SNS/SQS'呢？這兩者之間略有不同。對於第一種情況，您需要最小化連接創建的數量，而對於第二種情況，您需要分配數據（並創建更多連接實例）。有趣！！！！ – code

如果是第二種情況，我會用解決方案發布答案。 – code

聽起來好像將要設置正好一個每節點SNS/SQS連接，然後用它來處理每個節點上的所有數據。

我認爲foreachPartition在這裏是正確的想法，但您可能想事先合併RDD。這會在同一個節點上摺疊分區而不洗牌，並且可以避免啓動額外的SNS/SQS連接。

2017-02-02 19:39:56

是的，coalesce正是我的解決方案。還有一點我想在此添加。我有很多像23kb，45kb等小文件，並且通過coalesce將它縮小到正確的分區，現在我能夠在20分鐘內處理接近25GB的數據。在這裏改進更多 – Sam

謝謝布拉德利..還有一件事..這是說我需要1TB數據來處理我應該創建多少分區合併？ – Sam

所以我會使用足夠多的分區，以便每個分區都適合內存，或者我擁有的核心數量。無論哪個更大。 –

回答