apache spark上的不相交集合

我試圖找到使用apache spark在大量數據上搜索不相交集合（連接組件/ union-find）的算法。問題是數據量。甚至圖形頂點的原始表示也不適合在單個機器上運行。邊緣也不適合公羊。apache spark上的不相交集合

源數據是hdfs上的圖邊的文本文件：「id1 \ t id2」。

id以字符串值存在，而不是int。

樸素的解決方案，我發現是：邊緣

但是這會導致對大量數據的節點之間的傳輸（改組）

有何建議？

2016-05-18 Puh

我認爲graphx將有你需要內置（鏈接什麼：http://spark.apache.org/ graphx /） –

如果您正在使用的圖形工作，我建議你看一看這些庫

他們都提供連接組件的算法出來的任一個盒子。

GraphX：

val graph: Graph = ... 
val cc = graph.connectedComponents().vertices

GraphFrames：

val graph: GraphFrame = ... 
val cc = graph.connectedComponents.run() 
cc.select("id", "component").orderBy("component").show()

2017-06-14 14:28:10 Gevorg

回答