我需要對來自不同供應商的目錄數據的部件的不同描述進行聚類。我試圖找到一種「方法」,可以檢測類似描述的集羣,以便將它們組合在一起。用於羣集產品說明的ML方法
這是一個部件數目的樣本數據集即 A100: ["COCPIT VOICE RECORDER", "RECORDER", "VOICE RECORDER","BELT", "REGULARTOR BELT", "OXIGEN REGULATOR", "BULB", "OXIGEN REG"]
預期結果將是,即:它的 Cluster 1: ["COCPIT VOICE RECORDER", "RECORDER", "VOICE RECORDER"], Cluster 2 : ["BELT"], Cluster 3: ["OXIGEN REG", "OXIGEN REGULATOR"], Cluster 4: ["BULB"]
或變化。
我從未有過經驗,這一點,但我對ML基礎研究表明,你需要做的第一件事情就是從數據中提取特徵,所以我試着想出一些功能...
我的特徵提取方法是使用相似性函數(即編輯距離或Levenstain距離)或Jaro Winkler距離來比較這些部分中的每一個部分。
那麼我的想法是使用KMeans算法來找到羣集? 任何想法,如果這個功能選擇是好的? 關於特徵提取的任何其他想法或解決此問題的方法? 謝謝!
作爲一個特徵,字符串(Bag of Words)中每個單詞出現的次數可能非常有趣,因爲它不會預測不同單詞的相對位置。 – AdrienNK 2014-09-04 21:09:12
我不確定這個單詞包對於這個問題是否有好處,因爲在這個數據中有很多情況下單詞是拼寫錯誤或縮寫。例如:CVR和COCPIT VOICE RECORDER使用「編輯距離」具有相似性,但沒有常用的單詞袋特徵,我希望它們位於同一個羣集中? – 2014-09-04 21:28:23