2
我從數據中心收到數據,我必須清理和使數據有用,我最大的問題是一列可以稱之爲「service_description」,例如數據中心屬於美髮沙龍,本專欄是手動(文本框)填充包含的數據(億)巨大的數額,這裏是一個小樣本使用拼音標準化文本
service description
washed the haair
hair washed and dried
used shampoo on har
nails manicure
nail paint
nail pant
paint the nails
什麼,我需要做的是通過破壞一個腳本,將分析每個行,並給它取每個類別在一起特定類別例如頭髮可能是前三行的分類,因爲它們在所有分類中都重複出現,而指甲則是其餘分類,考慮到分類詞可能拼寫錯誤。
結果
service description possible categories
washed the haair hair
hair washed and dried hair
used shampoo on har hair
nails manicure nail
nail paint nail
nail pant nail
paint the nails nail