我正在做一個關於如何使用weka數據挖掘工具檢測和分類惡意內容的項目。 我開發了一種算法,但問題是我不知道如何以及在哪裏添加javascript,html或URl的惡意功能。如何在weka中添加惡意功能作爲數據集
例如:如果存在(///)三個斜槓,則將其分類爲惡意URL。 同樣,我有其他功能,我的算法將執行分類。
因此,如果有人知道如何做,請回復我。
在此先感謝。
我正在做一個關於如何使用weka數據挖掘工具檢測和分類惡意內容的項目。 我開發了一種算法,但問題是我不知道如何以及在哪裏添加javascript,html或URl的惡意功能。如何在weka中添加惡意功能作爲數據集
例如:如果存在(///)三個斜槓,則將其分類爲惡意URL。 同樣,我有其他功能,我的算法將執行分類。
因此,如果有人知道如何做,請回復我。
在此先感謝。
這個問題更多的是關於特徵提取或爲您的項目尋找域功能。通常情況下,weka可以使用現成的功能。因此,您的問題不是關於如何爲您的項目找到和使用功能的weka。
我不能幫助HTML和JavaScript,但對於URL分類下面的文章可能有所幫助。
Kan M-Y和Thi HON(2005),「使用URL特徵的快速網頁分類」,在Proceedings of the 14th ACM international conference on Information and knowledge management。紐約,紐約州,美國,第325-326頁。 ACM。
Ma J,Saul LK,Savage S和Voelker GM(2009),「超越黑名單:學習從可疑網址檢測惡意網站」,第15屆ACM SIGKDD國際會議論文集,關於知識發現和數據挖掘。紐約,紐約州,美國,第1245-1254頁。 ACM。
@謝謝Atilla您的回覆,我想在weka工具中使用這些惡意功能進行分類。由於我是weka中的新成員,因此我懷疑是否必須進行編碼,或者我必須僅基於arff數據集關於這些惡意和良性功能?..如果你有任何想法分享它.. – Vai
你必須做的編碼,使你的arff文件將具有這些惡意和良性功能。之後,您可以使用weka的算法。 –