可以說我有標記的數據集要羣集(標籤是識別每個數據到哪個簇所屬太)。現在,如果我在Matlab中使用任何聚類算法(kmeans,...),我怎麼能知道一個實例是否正確聚類。 知道可以說k均值數據集的羣集的實例之一是在簇2,但被標記的數據說,它屬於類1。然而,在被標記的數據集簇2可以是相同的預測的標籤羣集中的一個(但在預測和標記中具有不同的顛倒的名稱)。你有什麼建議?聚類評價
預先感謝您。
可以說我有標記的數據集要羣集(標籤是識別每個數據到哪個簇所屬太)。現在,如果我在Matlab中使用任何聚類算法(kmeans,...),我怎麼能知道一個實例是否正確聚類。 知道可以說k均值數據集的羣集的實例之一是在簇2,但被標記的數據說,它屬於類1。然而,在被標記的數據集簇2可以是相同的預測的標籤羣集中的一個(但在預測和標記中具有不同的顛倒的名稱)。你有什麼建議?聚類評價
預先感謝您。
如果我得到它的權利,你想的「地面實況」標籤與一個你的算法比較發現,並有他們可能被正確分組的問題,但不同的標籤。如果這是正確的,你可以在兩個標籤向量上嘗試grp2idx,因爲這似乎分配了它找到的第一個集羣標籤「1」和下一個「2」,依此類推。
編輯:grp2idx沒有這樣做,它只是將標籤更改爲儘可能小的標籤,但grp2idx([2 1 2 2 3])變成[2 1 2 2 3],因此它不會按不同的順序排列。例如,你可以在兩個標籤向量上取出grp2idx的輸出,減去它們,並且對於標籤向量的每個唯一值,差異應該是相同的。
Wikipedia discusses several approaches。
一些措施是從用於評估分類任務的變體中改編而來的。代替將類正確分配給單個數據點的次數(稱爲真正的正數),這樣的對計數度量評估是否預測真正在同一集羣中的每對數據點是否被預測爲相同簇。
配對計數度量解決了通過查看協議是什麼「相同」和什麼是「不同」來將羣集與類匹配的問題。
是的,我已經知道了,但這些措施假設,我知道哪些情況下正確地聚集和不,他們沒有這不是 –
。他們假設你有標籤和集羣,就這些。他們有自己的「正確」的概念,基於成對。他們不*要求你知道標籤A =簇1,但它們的設計方式無關緊要。 –
這是一個好辦法,我可以使用XOR函數做類似的事情,但我不知道如果我得到了標籤指的是真正的標籤或沒有的情況下,集羣的名稱是相反的。 –
你能否用一個小例子更新你的問題?我不知道我明白你的意思了「逆轉」什麼 –