2014-02-28 12 views
1

我是機器學習的新手,最近嘗試使用奇異值分解(SVD)。基於x和y值,我使用matplotlib繪製了以下digram。我正在檢測網絡用戶的異常活動。 在這個圖中有幾個點像異常值。我想確定哪些屬於這些異常值。查找聚類中異常值的標識

爲了讓它更容易理解,我們來看看下面的數據集。

基於網頁訪問的原始矩陣。

matrix = mat([[1,0,0,1,1,0,1,0,1,0], [1,0,0,0,1,0,1,0,1,1],[1,0,1,0,1,0,0,0,1,0],[0,1,1,1,0,1,0,1,0,0],[1,1,0,0,1,0,1,1,1,1],[0,0,1,0,1,1,0,1,0,0],[1,1,0,1,0,1,0,0,1,0],[1,0,0,0,1,0,1,1,1,1],[0,1,1,0,1,0,1,0,0,0],[1,1,0,1,0,1,0,1,1,0]]) 

x,y計算SVD後的協調。

x = [-0.34095692,-0.34044722,-0.27155318,-0.21320583,-0.44657865,-0.19587836, -0.29414279, -0.3948753 ,-0.21655774 , -0.34857087] 
y = [0.16305762,0.38554548, 0.10412536, -0.57981103, 0.17927523, -0.22612216, -0.34569697, 0.30463137,0.01301744,-0.42661108] 

我想要的是找到誰屬於給定的數據點。就像大數據集中的智慧一樣,如何找到異常值的身份?希望你能理解我的問題。

enter image description here

+0

它會更清楚,如果你能解釋一下關於什麼是網頁訪問,以及你正在繪製什麼點。似乎x和y是來自SVD的正交矩陣的前兩列,但我不太清楚它與圖 – lennon310

+1

有什麼關係,不幸的是,「離羣值」通常是一個非常模糊的術語。有人說,一個人的信號是另一個人的噪音。 –

+0

@ lennon310:感謝您的評論。我將根據網頁訪問來識別異常用戶。 「潛在語義分析」用於識別類似單詞等的NLP方法。我試圖在這裏使用相同的方法? –

回答