我有一個分類問題,其中有一組形成我的數據點的塊。我可以用於塊分類的一個屬性是一個標籤,它本質上是另一個塊的塊號。塊還具有可用於分類的其他屬性(大小)。我的數據集中的「標籤」屬性可以用於如下分類 - 如果2個塊有2個屬於同一個羣集的標籤(塊編號),則塊或數據點應聚集在一起。這裏,我事先不知道標籤號碼是什麼號碼。分類器其中屬性依賴於集羣ID
Block 1 [Tag 4] size 10
Block 2 [Tag 3] size 20
Block 3 [Tag 1] size 100
Block 4 [Tag 2] size 110
這裏,分別基於標籤屬性,塊1和塊2標籤塊3和4。同樣,塊3和塊4分別是塊2和塊1。因此,塊1,塊2可以屬於集羣ID 1,塊3和4可以屬於集羣ID 2.同樣,塊1,2的大小比塊3,4的大小更類似。分類的最終結果應該是
cluster id 1: Block 1 , Block 2
cluster id 2: Block 3 , Block 4
有沒有辦法對這些數據點進行分類?據我所知,樸素貝葉斯分類器認爲每個屬性是相互獨立的。這裏,屬性(標籤)取決於未來的事件(標籤塊號碼所屬的簇ID)。我應該尋找哪種形式/類別的聚類算法來解決這個問題? 我能想到的一種方法是使用其他屬性(如大小)運行k-means,然後當我大致瞭解羣集id時,我將此羣集ID添加到標記並將其用作分類屬性。有其他更好的方法來編寫分類器,其中屬性取決於生成的集羣本身嗎? 任何幫助,將不勝感激。
羣集和分類標籤是否相同?請您澄清一下(例如,舉個例子)? – Ash