如在hadoop中,map和reduce之間有一個混洗階段。我想知道flink是否有這樣的一個階段,以及它是如何工作的。因爲我已經閱讀了很多網站,他們沒有提及太多。例如wordcount演示,它有一個flatmap,key和sum 。兩個操作員之間總是有一個洗牌階段嗎?我能得到這些操作員之間的中間數據嗎?Apache Flink shuffle的策略?它像在Hadoop中洗牌嗎?
回答
洗牌不總是執行,它只取決於特定的操作員。以您的示例爲例,wordCount示例中的關鍵步驟引入了散列分區程序,該散列分區程序基於密鑰執行數據混洗。例如,如果您只想在沒有某種形式的聚合的情況下處理和過濾數據,然後在某處寫入,則每個分區都將保存自己的數據,並且不會有任何種類的混洗參與其中。
因此,要回答你的問題 -
- 沒有,洗牌並不總是參與2個運營商和它取決於之間。
- 如果您詢問您可以在Hadoop中訪問的某些中間文件,則答案爲否,Flink是內存中處理引擎,並且(在大多數情況下)會處理在內存中讀取的數據。
謝謝,所以,我有沒有辦法對內存中的數據做些什麼?我記得Spark有一個讓用戶在map和reduce之間讀取數據的類。 – ZeMi
我想說這取決於你想要做什麼。我喜歡相信總有一種方法! –
如果你用更多的信息更新你的問題,或者用你想做的事情創建一個新問題,有些人可以在這裏幫忙。 –
- 1. Hadoop:排序和洗牌
- 2. 什麼時候洗牌開始在Hadoop
- 3. zipWithIndex Apache Flink
- 4. 在php中洗牌的圖像順序
- 5. Hadoop V2:關閉洗牌/排序?
- 6. flink-streaming-java在Apache Flink中不可用
- 7. jQuery的洗牌格圖像
- 8. 在表格中洗牌圖像
- 9. 在Android中洗牌陣列圖像
- 10. Apache的Flash跨域策略
- 11. Apache Spark的更新策略
- 12. 使用與洗牌匹配的按鈕洗牌圖像
- 13. 在Hadoop中混洗自己
- 14. Apache Flink的XmlInputFormat
- 15. Cassandra中的令牌感知策略
- 16. 爲什麼我無法在PHP中使用shuffle正確地洗牌數組?
- 17. 洗牌圖像周圍
- 18. Google Drive品牌策略
- 19. Facebook令牌/會話策略
- 20. Apache Apex與Apache Flink
- 21. Hadoop MapReduce中的排序和洗牌優化
- 22. 哪個節點對Hadoop中的密鑰進行排序/洗牌?
- 23. Hadoop減少內存中的shuffle合併
- 24. Apache Beam/Flink ExceptionInChainedStubException
- 25. Apache Ignite中的Flink Streamer
- 26. Apache Flink中的並行度
- 27. Apache Flink Kafka集成
- 28. 如何在Elm中洗牌?
- 29. 在Java中洗牌一套
- 30. 洗牌算法:晚餐部門洗牌
你能澄清一下你想知道什麼嗎? –