我有一個來自csv文件的單個輸入流。此流來自用戶表,用戶可能會複製不同的ID。水壺 - 按字段值過濾重複的行
我需要清理這個流。 [名字+姓氏]的組合總是獨一無二的,但我需要在選擇之前進行比較,因爲我想保留最近的信息,並根據其他值的比較創建新字段。
我有一個時間戳將用於選擇行。
這是輸入流的一個例子:
這是輸出我想要的例子: 什麼工具是最好的完成這個任務?
在此先感謝。
我有一個來自csv文件的單個輸入流。此流來自用戶表,用戶可能會複製不同的ID。水壺 - 按字段值過濾重複的行
我需要清理這個流。 [名字+姓氏]的組合總是獨一無二的,但我需要在選擇之前進行比較,因爲我想保留最近的信息,並根據其他值的比較創建新字段。
我有一個時間戳將用於選擇行。
這是輸入流的一個例子:
這是輸出我想要的例子: 什麼工具是最好的完成這個任務?
在此先感謝。
這應該在pentaho水壺中進行一些排序和分組。
您可以執行以下操作:按名稱,Surename1
你應該注意的另一件事情,但是這是更普遍的 - 有一個由稱爲記憶組步驟,這樣可以節省分組之前排序昂貴的計算時間,但是這一步是好的只有當你能確保通過它的數據不會溢出內存時,即小數據集。
排序後,您可以使用獨特的原料步驟,以避免重複.. – 2014-12-19 10:15:55
謝謝你,它工作完美。 – beerLantern 2014-12-26 11:08:04