0
我有四個數組包含來自四個數據框的列名稱。如何識別Scala Spark中兩個數組之間的交集?
var col1 = df1.columns
var col2 = df2.columns
var col3 = df3.columns
var col4 = df4.columns
它們都是Array [String]。現在的問題是確定那些在所有4個數組中經常出現的列,而那些不是。 我想可以從找到兩個數組的交集開始,然後循環它。有任何想法嗎 ?我們可以將它擴展到N維數組。
這樣的想法是不只是識別路口對面兩個數組,但多個陣列,並找出差異
不是真的這個問題的重複 - OP似乎有興趣相交_column names_,而不是他們的實際值 –
可能的重複[比較Scala Spark中的兩個數組列](https://stackoverflow.com/questions/44158623/比較兩陣列柱合階火花) – jwvh