分類器其中屬性依賴於集羣ID

-1

我有一個分類問題，其中有一組形成我的數據點的塊。我可以用於塊分類的一個屬性是一個標籤，它本質上是另一個塊的塊號。塊還具有可用於分類的其他屬性（大小）。我的數據集中的「標籤」屬性可以用於如下分類 - 如果2個塊有2個屬於同一個羣集的標籤（塊編號），則塊或數據點應聚集在一起。這裏，我事先不知道標籤號碼是什麼號碼。分類器其中屬性依賴於集羣ID

Block 1 [Tag 4] size 10 
Block 2 [Tag 3] size 20 
Block 3 [Tag 1] size 100 
Block 4 [Tag 2] size 110

這裏，分別基於標籤屬性，塊1和塊2標籤塊3和4。同樣，塊3和塊4分別是塊2和塊1。因此，塊1，塊2可以屬於集羣ID 1，塊3和4可以屬於集羣ID 2.同樣，塊1,2的大小比塊3,4的大小更類似。分類的最終結果應該是

cluster id 1: Block 1 , Block 2 
cluster id 2: Block 3 , Block 4

有沒有辦法對這些數據點進行分類？據我所知，樸素貝葉斯分類器認爲每個屬性是相互獨立的。這裏，屬性（標籤）取決於未來的事件（標籤塊號碼所屬的簇ID）。我應該尋找哪種形式/類別的聚類算法來解決這個問題？我能想到的一種方法是使用其他屬性（如大小）運行k-means，然後當我大致瞭解羣集id時，我將此羣集ID添加到標記並將其用作分類屬性。有其他更好的方法來編寫分類器，其中屬性取決於生成的集羣本身嗎？任何幫助，將不勝感激。

來源

2016-07-03 Shehbaz Jaffer

羣集和分類標籤是否相同？請您澄清一下（例如，舉個例子）？ – Ash

這個目標沒有意義。

你的四個街區和標籤形成一個循環：

1 -> 4 -> 2 -> 3 -> 1

爲什麼會是有意義的分成兩個組，1 + 2和3 + 4呢？

k-means和其他算法在這裏沒有多大的幫助。你需要找到什麼是一個好的解決方案的一些正式的財產;然後找到一個算法來優化這個屬性。 k-means最小化方差偏差 - 這將如何幫助你解決問題？

來源

2016-07-09 01:38:08

這是一個示例，巧合的是它構成了一個循環。將它看作一個二分圖，其中（1,2）在1個簇中，（3,4）在另一個簇中具有從1個簇到另一個簇的邊。 k-means很有用，因爲可以使用size屬性將塊分類爲簇。標籤屬性是未來事件，事先不能使用。目前我首先使用大小將塊分類爲簇，然後使用基於它們屬於哪個簇的標籤。這給了我體面的結果，但我想要更精確的結果，因爲我的標籤屬性在我的數據集中是最難以破解的屬性。 –

分類器其中屬性依賴於集羣ID

回答

相關問題