我有ip地址數據。我想對它應用k均值聚類。如何應用它。我可以在4維空間即數據映射數據具有k表示在matlab中ip地址數據的聚類
10.0.11.4
10.0.7.4
10.0.8.4
10.0.14.4
然後我可以映射數據,4維即
10 0 11 4
10 0 7 4
10 0 8 4
10 0 14 4
我有ip地址數據。我想對它應用k均值聚類。如何應用它。我可以在4維空間即數據映射數據具有k表示在matlab中ip地址數據的聚類
10.0.11.4
10.0.7.4
10.0.8.4
10.0.14.4
然後我可以映射數據,4維即
10 0 11 4
10 0 7 4
10 0 8 4
10 0 14 4
這取決於你爲什麼要那樣做。
例如,如果您想要這樣做來檢查哪個IP地址在子網中或者在地理上最接近,那麼K-means在那裏顯然會失敗。因爲按照以下值(exmple)的k-means
10.0.4.1 9.0.4.1
接近對方,但在現實中,他們可能在地理上太遠。正如我所說,這一切都取決於你爲什麼要在IP地址上運行K-means?
聽起來像是一個可怕的想法這樣做。它將導致相當無意義的集羣(關閉IP通常不相關,並且託管多個站點,因此同一IP可能會託管合法的汽車商店和非法材料)。
你知道嗎每個IP是一個 number?
帶有點號的四位數字對於手動網絡管理只是更容易使用。但你看到的只是一個四字節整數。以十六進制編寫的IP 127.0.0.1
爲0x7F000001
和十進制2130706433
。
我最近沒有證實這一點,但我很確定所有的瀏覽器仍然需要支持IP的十進制概念。如果您在本地主機上有Web服務器,請嘗試通過http:// 2130706433/
訪問它,或者在命令行上嘗試ping 2130706433
。
四字節數據空間上的K均值只有在IP地址如何分配時纔有意義。即你會需要有10個。 .123.45和10. .123.45總是具有相同的共同點,就好像它們是最後一個字節中的後續IP一樣。
這已經在ieee論文中實現,即「Wang,Jing,et al。」Network anomaly detection:A survey and comparative analysis of stochastic and deterministic methods。「Decision和控制(CDC),2013 IEEE IEEE第52屆年會,IEEE,2013年「。我是指那篇論文。 IP地址數據文件.mat https://www.dropbox。com/s/3wptzvbkp77ehkp/nv1d.mat?dl = 0並在文本中https://www.dropbox.com/s/vjuiiv9j9f3bixc/nv1d.txt?dl=0 –
其實我正在做異常檢測,因爲我有IP地址,流量大小和其他功能的數據。所以我想在IP地址上應用k均值聚類,並且想要用k均值聚類,流量大小和其他特徵的輸出表徵流量,然後想要使用這個特徵流量來輸入異常檢測算法。 –
那麼在這種情況下,您根本不應該使用IP地址進行羣集。不要使用k-means算法,只能使用數字的特徵。使用IP地址作爲分類屬性。 –
我的教授不會允許不使用IP地址。聚類後,我使這些IP地址的單個值例如256,然後對每個i.p使用這個值。解決一個值就會形成。所以我想要如何羣集這些數據。我可以在4維空間中映射,即第1號。在X軸上的IP,然後第二個號碼。在Y軸上的ip,第3號。在Z軸和第四np。 ip在K軸上的映射,所以這些映射到XYZK平面上的所有IP地址 –