我想比較兩個RDD中的數據。如何迭代和比較一個RDD中的字段數據與另一個RDD中的字段數據。以下Eg文件:`如何使用scala + spark比較兩個rdds?這兩個rdds都沒有鑰匙?
File1
f1 f2 f3 f4 f5 f6 f7
1 Nancyxyz 23456 12:30 NEWYORK 9000 xyz
2 ranboxys 12345 12:30 NEWYORK 9000 xyz
File2
f1 f2 f3 f4 f5 f6 f7
2 ranboxys 12345 12:30 NEWYORK 9000 xyz
1 markalan 23456 12:30 LONDON 7000 xyz
3 Loyleeie 45678 12:40 London 9001 abc
在上述兩個文件中,前兩個記錄是相同的,但順序不同。 現在我想比較這兩個RDDS並打印不同的記錄即
File2
3 Loyleeie 45678 12:40 London 9001 abc
我不想讓在兩個RDDS第2條,因爲兩者都是相同的,但順序不同 能否請你解釋如何在scala中使用rdds做到這一點
我嘗試somay選項,如減法和while循環。但沒有運氣
我只是改變了「file2」第2條記錄現在我想打印第2條記錄和第3條記錄在file2和修改後的字段。我不知道哪場發生改變,它只是比較文件1,如果它不匹配,然後打印不同的記錄,並打印在另一條線路都有哪些字段轉變
您是否嘗試將RDD轉換爲DataFrame,然後使用'except'方法? – LiMuBei
@maasg非常感謝您分享我的想法。它沒有得到只有第三個不同的記錄,我得到2個記錄在file2 1 Nancyxyz 23456 12:30 NEWYORK 9000 xyz 3 Loyleeie 45678 12:40倫敦9001 abc我沒有得到它在減函數最新錯誤。有沒有其他方法。 – Nathon