2017-09-04 141 views
-1

我有一長串的對象組。每個對象都具有簡單的屬性,如名稱和描述。他們已經被分組了類似的對象,但我知道很多組是冗餘或以某種方式重疊。列表不包含重複的對象,順序無關緊要。減少重疊對象組的數量

有關如何根據相似性將它們降低爲「n」組的任何建議?謝謝。

即字符串

["apple", "orange", "pear"] 
["apple", "steak", "orange"] 
["steak", "burger"] 

前兩個是最相似的大致

+0

而你如何定義類似? – Julien

+0

嗨,我通過列表中的同一組對象來定義它。如果有意義的話,該對象可以被看作是一個簡單的字符串或數字。 – user963936

回答

0

也許你可以嘗試建立,其中,列的數目對應於數據集中的不同單詞的數量的矩陣。行數是您的數據點的數量。然後,條目(i,j)是單詞j在樣本i中出現的次數。一旦你有了這個矩陣,那麼任何常見的聚類算法都可以工作,並且你可以用你喜歡的任何方式來定義相似度。