我是機器學習的新手,最近嘗試使用奇異值分解(SVD)。基於x和y值,我使用matplotlib
繪製了以下digram。我正在檢測網絡用戶的異常活動。 在這個圖中有幾個點像異常值。我想確定哪些屬於這些異常值。查找聚類中異常值的標識
爲了讓它更容易理解,我們來看看下面的數據集。
基於網頁訪問的原始矩陣。
matrix = mat([[1,0,0,1,1,0,1,0,1,0], [1,0,0,0,1,0,1,0,1,1],[1,0,1,0,1,0,0,0,1,0],[0,1,1,1,0,1,0,1,0,0],[1,1,0,0,1,0,1,1,1,1],[0,0,1,0,1,1,0,1,0,0],[1,1,0,1,0,1,0,0,1,0],[1,0,0,0,1,0,1,1,1,1],[0,1,1,0,1,0,1,0,0,0],[1,1,0,1,0,1,0,1,1,0]])
x,y計算SVD後的協調。
x = [-0.34095692,-0.34044722,-0.27155318,-0.21320583,-0.44657865,-0.19587836, -0.29414279, -0.3948753 ,-0.21655774 , -0.34857087]
y = [0.16305762,0.38554548, 0.10412536, -0.57981103, 0.17927523, -0.22612216, -0.34569697, 0.30463137,0.01301744,-0.42661108]
我想要的是找到誰屬於給定的數據點。就像大數據集中的智慧一樣,如何找到異常值的身份?希望你能理解我的問題。
它會更清楚,如果你能解釋一下關於什麼是網頁訪問,以及你正在繪製什麼點。似乎x和y是來自SVD的正交矩陣的前兩列,但我不太清楚它與圖 – lennon310
有什麼關係,不幸的是,「離羣值」通常是一個非常模糊的術語。有人說,一個人的信號是另一個人的噪音。 –
@ lennon310:感謝您的評論。我將根據網頁訪問來識別異常用戶。 「潛在語義分析」用於識別類似單詞等的NLP方法。我試圖在這裏使用相同的方法? –