Spark: 我有一個長度爲'n'(a1,a2,... ak,... an)的連續數據。我必須執行樂趣(a1,a2,... a5),樂趣(a5,a6,... a9),...... 樂趣(an-4 ... an- 2,an-1,an),其中有趣是一個數學運算並獨立應用於數據塊。 我希望這些塊應該並行執行。我是否有奢侈的執行者(每個區塊)提供開始和結束範圍? [塊大小可變但均勻]。在Spark-Python中定義工作人員的數據範圍
0
A
回答
0
添加一個索引:
rdd_indexed = rdd.zipWithIndex()
生成桶:
with_buckets = rdd.mapValues(lambda x: x % 5)
交換:
swapped = rdd.map(lambda xi: (x[1], x[0]))
而且reduceByKey
:
swapped.reduceByKey(f)
+0
感謝您提供快速響應的解決方案。 我可以使用具有重疊值的存儲桶'm'的重疊條紋大小,其中'm'<'k'表示最後一個「m」桶的值與下一個桶中的第一個「m」值相同? –
+0
第二功能:有趣的是一次應用在窗口的所有值上面提到的方式是在不解決目的的時候處理一個索引。 –
相關問題
- 1. vb.net人工範圍
- 2. 未定義範圍時,客戶端人員選取
- 3. Google DataFlow - 固定的工作人員數
- 4. 複製數字範圍欄吧在一定範圍內的人
- 5. 自定義日期範圍調查員
- 6. 在Javascript中的Web工作人員,線程數量和工作人員?
- 7. 範圍數據標註工作不
- 8. Microsoft Graph - 「列出人員」API的範圍?
- 9. 成員日期範圍內的數據
- 10. 定義整數範圍C
- 11. 如何在Eclipse中監控開發人員的工作數據?
- 12. 在Python中管理固定數量的工作人員
- 13. CSV工作人員正在鎖定dbase
- 14. 瞭解服務人員範圍
- 15. 班級範圍和私人成員?
- 16. 在VB.NET中定義Excel的範圍
- 17. 根據設計範圍自定義當地人
- 18. 在不指定工作表的情況下指定工作簿中的範圍
- 19. JavaScript的範圍界定如何工作?
- 20. $範圍未定義
- 21. 定義範圍值
- 22. 從專門的工作人員訪問共享工作人員
- 23. 分佈式工作人員的Dask工作人員資源
- 24. 命名函數定義如何在Javascript的非全局範圍內工作?
- 25. 查詢顯示給定時間範圍內的在職員工
- 26. 在範圍中定義的函數,但編譯器抱怨它超出範圍
- 27. 類中成員的範圍
- 28. Boost find_first它是如何工作的? /定義一個範圍
- 29. Plotly R:不能讓自定義的xaxis日期範圍工作
- 30. [Talend]如何定義一個全球範圍內的工作
請更具體並共享數據,代碼和輸出。 – mtoto