我是新來的火花及其相關概念,所以請善待我並幫助我澄清我的疑惑,我會給你一個例子來幫助你理解我的問題。是否可以在一個分區的火花內創建並行操作?
我有一個javaPairRDD「RDD」,其中包含像
Tuple2 <Integer,String[]>
元組,例如,假設字符串[]長度= 3,意味着它包含除了鍵3層的元件,我想要做什麼是更新向量的每個元素使用3個RDD和3個操作,「R1」和「operation1」用於修改第一個元素,「R2」和「operation2」用於修改第二個元素,「R3」和「operation3」用於修改第三個元素,
R1,R2和R3是提供元素的新值的RDD
我知道火花將數據(在本例中是「rdd」)劃分爲多個分區,但我所問的是:是否可以在同一分區中同時執行不同的操作?
根據我的例子,因爲我有3個操作,這意味着我可以在同一時間採取3元組,而不是隻考慮一個操作它:
,我想它是處理:(噸指的時間)
at t=0:
*tuple1=use operation1 to modify the element 1
*tuple2=use operation2 to modify the element2
*tuple3=use operation3 to modify the element 3
在t = 1:
*tuple1=use operation2 to modify the element 2
*tuple2=use operation3 to modify the element3
*tuple3=use operation1 to modify the element 1
在t = 2:
*tuple1=use operation.3 to modify the element 3
*tuple2=use operation1 to modify the element1
*tuple3=use operation2 to modify the element 2
完成更新3個元組後,我拿別人(3元組)從同一partion對待他們,等等..
請善待它只是掠過我腦海一個念頭,我想知道是否可以做到這一點,謝謝你的幫助
看看'mapPartitions' - 它可能會幫你一點 – Alec
我低估了,因爲我認爲你需要花更多的時間來閱讀火花文檔和概念。在這個狀態下,這個問題幾乎沒有意義。 – C4stor