我正在使用R構建情感分析工具,並遇到一些重複的問題。數據的主要來源是Twitter,看起來好像很多人在每封推文結尾添加了一些隨機文本,繞過了Twitter自己的垃圾郵件過濾器。例如在R中查找「near duplicates」字符串
Click xxxxx to buy the amazing xxxxx for FREE ugjh
我得到噸的那些確切的鳴叫與不同的隨機字符串結束。他們來自同一個用戶或來自不同的用戶。
是否有像duplicated
或unique
這樣的函數返回2個字符串的接近程度,以及它們是否高於某個特定的百分比來解除它們?
我知道這樣做最終會從人們說一模一樣刪除真正的鳴叫,就像
I love xxxx !
但我會處理的,在未來。
任何小費在正確的方向將不勝感激!
'agrep'使用Levenshtein距離和最有可能是有用的在這裏。 –
http://rpubs.com/bbolker/6735可能很有用 –