我有兩個csv文件(數據集)file1和file2。加入兩個數據集spark scala
文件1包括以下欄:
Orders | Requests | Book1 | Book2
Varchar| Integer | Integer| Integer
文件2包括以下欄:
Book3 | Book4 | Book5 | Orders
String| String| Varchar| Varchar
如何在兩個CSV文件中的數據結合起來,斯卡拉檢查:
- 有多少個
-
個
- 訂單,第一冊(忽略具有值= 0第一冊),BOOK3和Book4存在於每個訂單兩個文件
- 注意:列訂單是常見的兩個文件
'orders'代表什麼?這兩個文件之間的邏輯關係是什麼?這個連接的目的是什麼? – Yaron
對不起,我感到困惑。我只是隨機列名。我想合併兩個具有公共列(假設爲column1)的csv文件,並從兩個文件(假設第一個文件的第二個列和第二個文件的第6列中的第6列)顯示包含公共列的列。所以,輸出將會是column1,column2,column5,column6。另外,忽略column2的值爲0. – SolakiR