如果我在相似度矩陣上應用Scikit的DBSCAN(http://scikit-learn.org/stable/modules/generated/sklearn.cluster.DBSCAN.html),我會得到一系列標籤。其中一些標籤是-1。文件稱他們爲噪音樣品。Scikit的DBSCAN聚類算法中有噪聲的樣本是什麼?
這些是什麼?他們都屬於一個集羣,還是他們都屬於他們自己的集羣,因爲他們很吵?
謝謝
如果我在相似度矩陣上應用Scikit的DBSCAN(http://scikit-learn.org/stable/modules/generated/sklearn.cluster.DBSCAN.html),我會得到一系列標籤。其中一些標籤是-1。文件稱他們爲噪音樣品。Scikit的DBSCAN聚類算法中有噪聲的樣本是什麼?
這些是什麼?他們都屬於一個集羣,還是他們都屬於他們自己的集羣,因爲他們很吵?
謝謝
這些都不是一個集羣的一部分完全相同。它們只是不屬於任何集羣的點,在某種程度上可以被「忽略」。
請記住,DBSCAN代表「基於密度的空間應用噪聲空間聚類」。 DBSCAN進行檢查以確保點在指定範圍內具有足夠的鄰居以將點分類到羣集中。
但是不符合落入任何主要羣集的標準的點會發生什麼?如果一個點在指定半徑內沒有足夠的鄰居被認爲是集羣的一部分,該怎麼辦?這些是被給予集羣標籤-1
的點,並被認爲是噪聲。
那麼是什麼?
那麼,如果您正在分析數據點,並且您只對一般羣集感興趣,則可以降低數據大小並消除噪聲。或者,如果您正在使用聚類分析對數據進行分類,在某些情況下,可能會將噪點作爲異常值進行丟棄。
在異常檢測中,不適合任何類別的點也很重要,因爲它們可能表示問題或罕見事件。
另請閱讀DBSCAN論文! –
以下是其他人需要的鏈接:https://www.aaai.org/Papers/KDD/1996/KDD96-037.pdf – Auxiliary