-1

我有一個分類問題,其中有一組形成我的數據點的塊。我可以用於塊分類的一個屬性是一個標籤,它本質上是另一個塊的塊號。塊還具有可用於分類的其他屬性(大小)。我的數據集中的「標籤」屬性可以用於如下分類 - 如果2個塊有2個屬於同一個羣集的標籤(塊編號),則塊或數據點應聚集在一起。這裏,我事先不知道標籤號碼是什麼號碼。分類器其中屬性依賴於集羣ID

Block 1 [Tag 4] size 10 
Block 2 [Tag 3] size 20 
Block 3 [Tag 1] size 100 
Block 4 [Tag 2] size 110 

這裏,分別基於標籤屬性,塊1和塊2標籤塊3和4。同樣,塊3和塊4分別是塊2和塊1。因此,塊1,塊2可以屬於集羣ID 1,塊3和4可以屬於集羣ID 2.同樣,塊1,2的大小比塊3,4的大小更類似。分類的最終結果應該是

cluster id 1: Block 1 , Block 2 
cluster id 2: Block 3 , Block 4 

有沒有辦法對這些數據點進行分類?據我所知,樸素貝葉斯分類器認爲每個屬性是相互獨立的。這裏,屬性(標籤)取決於未來的事件(標籤塊號碼所屬的簇ID)。我應該尋找哪種形式/類別的聚類算法來解決這個問題? 我能想到的一種方法是使用其他屬性(如大小)運行k-means,然後當我大致瞭解羣集id時,我將此羣集ID添加到標記並將其用作分類屬性。有其他更好的方法來編寫分類器,其中屬性取決於生成的集羣本身嗎? 任何幫助,將不勝感激。

+1

羣集和分類標籤是否相同?請您澄清一下(例如,舉個例子)? – Ash

回答

0

這個目標沒有意義。

你的四個街區和標籤形成一個循環:

1 -> 4 -> 2 -> 3 -> 1 

爲什麼會是有意義的分成兩個組,1 + 2和3 + 4呢?

k-means和其他算法在這裏沒有多大的幫助。你需要找到什麼是一個好的解決方案的一些正式的財產;然後找到一個算法來優化這個屬性。 k-means最小化方差偏差 - 這將如何幫助你解決問題?

+0

這是一個示例,巧合的是它構成了一個循環。將它看作一個二分圖,其中(1,2)在1個簇中,(3,4)在另一個簇中具有從1個簇到另一個簇的邊。 k-means很有用,因爲可以使用size屬性將塊分類爲簇。標籤屬性是未來事件,事先不能使用。目前我首先使用大小將塊分類爲簇,然後使用基於它們屬於哪個簇的標籤。這給了我體面的結果,但我想要更精確的結果,因爲我的標籤屬性在我的數據集中是最難以破解的屬性。 –