查找聚類中異常值的標識

我是機器學習的新手，最近嘗試使用奇異值分解（SVD）。基於x和y值，我使用matplotlib繪製了以下digram。我正在檢測網絡用戶的異常活動。在這個圖中有幾個點像異常值。我想確定哪些屬於這些異常值。查找聚類中異常值的標識

爲了讓它更容易理解，我們來看看下面的數據集。

基於網頁訪問的原始矩陣。

matrix = mat([[1,0,0,1,1,0,1,0,1,0], [1,0,0,0,1,0,1,0,1,1],[1,0,1,0,1,0,0,0,1,0],[0,1,1,1,0,1,0,1,0,0],[1,1,0,0,1,0,1,1,1,1],[0,0,1,0,1,1,0,1,0,0],[1,1,0,1,0,1,0,0,1,0],[1,0,0,0,1,0,1,1,1,1],[0,1,1,0,1,0,1,0,0,0],[1,1,0,1,0,1,0,1,1,0]])

x，y計算SVD後的協調。

x = [-0.34095692,-0.34044722,-0.27155318,-0.21320583,-0.44657865,-0.19587836, -0.29414279, -0.3948753 ,-0.21655774 , -0.34857087] 
y = [0.16305762,0.38554548, 0.10412536, -0.57981103, 0.17927523, -0.22612216, -0.34569697, 0.30463137,0.01301744,-0.42661108]

我想要的是找到誰屬於給定的數據點。就像大數據集中的智慧一樣，如何找到異常值的身份？希望你能理解我的問題。

enter image description here

來源

2014-02-28 Nilani Algiriyage

它會更清楚，如果你能解釋一下關於什麼是網頁訪問，以及你正在繪製什麼點。似乎x和y是來自SVD的正交矩陣的前兩列，但我不太清楚它與圖 – lennon310

有什麼關係，不幸的是，「離羣值」通常是一個非常模糊的術語。有人說，一個人的信號是另一個人的噪音。 –

@ lennon310：感謝您的評論。我將根據網頁訪問來識別異常用戶。「潛在語義分析」用於識別類似單詞等的NLP方法。我試圖在這裏使用相同的方法？ –

查找聚類中異常值的標識

回答

相關問題