減少重疊對象組的數量

-1

我有一長串的對象組。每個對象都具有簡單的屬性，如名稱和描述。他們已經被分組了類似的對象，但我知道很多組是冗餘或以某種方式重疊。列表不包含重複的對象，順序無關緊要。減少重疊對象組的數量

有關如何根據相似性將它們降低爲「n」組的任何建議？謝謝。

即字符串

["apple", "orange", "pear"] 
["apple", "steak", "orange"] 
["steak", "burger"]

前兩個是最相似的大致

2017-09-04 user963936

而你如何定義類似？ – Julien

嗨，我通過列表中的同一組對象來定義它。如果有意義的話，該對象可以被看作是一個簡單的字符串或數字。 – user963936

也許你可以嘗試建立，其中，列的數目對應於數據集中的不同單詞的數量的矩陣。行數是您的數據點的數量。然後，條目（i，j）是單詞j在樣本i中出現的次數。一旦你有了這個矩陣，那麼任何常見的聚類算法都可以工作，並且你可以用你喜歡的任何方式來定義相似度。

2017-09-05 04:12:49 yulunz

回答