我在SAS工作,我有一個數據集與2列,我不僅要刪除重複,但也「幾乎」重複。數據是這樣的:刪除使用SAS或Excel「幾乎重複」
**Brand Product**
Coca Cola Coca Cola Light
Coca Cola Coca Cola Lgt
Coca Cola Cocacolalight
Coca Cola Coca Cola Vanila
Pepsi Pepsi Zero
Pepsi Pepsi Zro
我不知道它實際上是可能的,但我想這個文件,看起來像刪除「複製」後,就是這樣:
**Brand Product**
Coca Cola Coca Cola Light
Coca Cola Coca Cola Vanila
Pepsi Pepsi Zero
如果決賽桌有例如,我沒有偏好只要沒有「重複」值,「百事可樂」或「百事可樂」。
我在想是否有辦法比較前4-5個字母,如果它們相同,則認爲它們是重複的。但我當然樂於接受建議。如果在excel中有一種方法可以完成,我會很樂意聽到它。
注意:圍繞這類過程有一個完整的領域,要做到這一點非常困難。 – Joe 2015-03-31 17:35:59