2013-05-25 61 views
2

我從數據中心收到數據,我必須清理和使數據有用,我最大的問題是一列可以稱之爲「service_description」,例如數據中心屬於美髮沙龍,本專欄是手動(文本框)填充包含的數據(億)巨大的數額,這裏是一個小樣本使用拼音標準化文本

service description 

washed the haair 
hair washed and dried 
used shampoo on har 
nails manicure 
nail paint 
nail pant 
paint the nails 

什麼,我需要做的是通過破壞一個腳本,將分析每個行,並給它取每個類別在一起特定類別例如頭髮可能是前三行的分類,因爲它們在所有分類中都重複出現,而指甲則是其餘分類,考慮到分類詞可能拼寫錯誤。

結果

service description   possible categories 

washed the haair      hair 
hair washed and dried     hair 
used shampoo on har     hair 
nails manicure       nail 
nail paint        nail 
nail pant        nail 
paint the nails      nail 

回答