我解釋我的問題與一個假想的表有兩列(COL1,COL2)是這樣的:需要快速的算法來找到的關係記錄萬億互斥的網絡(關係)
col1 col2
A <--> B
A <--> C
E <--> F
B <--> D
E <--> G
此表是在一份文件。在上述情況下,我想將其分解爲互斥關係文件。因此,對於上述表中的結果將是兩個文件(表):
col1 col2
A <--> B
A <--> C
B <--> D
和
col1 col2
E <--> F
E <--> G
真正的文件有重複記錄萬億(關係),我希望把它分成相互排斥關係文件。需要任何智能算法的幫助。我正在使用pyspark從鑲木地板文件中讀取表格。所以,任何pyspark代碼都會非常好,但不是必需的(算法更重要)。
你到目前爲止試過了什麼?向我們展示一些代碼! – MrSmith42
我想你正在尋找圖中的* connected components *(你稱之爲網絡)。這是一個深入研究的問題,我相信有線性複雜性的解決方案。從您最喜愛的搜索引擎中找到幫助應該不會有太大困難。 –
謝謝。我試着用谷歌,但不知道搜索的實際條件。 –