我目前正在測試我的二進制SVM Java實現的培訓階段。 我測試瞭如下圖所示的小數據,但我需要我的支持向量機適用於已知數據集像垃圾郵件/不是垃圾郵件,圖像等構建Svm培訓集的困惑
- 我SVM能夠讀取數值,所以我需要也用一些真實的數據測試它。
- 後來我想轉到圖像。
要找到一個真正的數據集,我通過不同的搜索回購協議,但所有我能找到的數值+字符,文本等
而且我發現一個spam Archive。
- 但我該如何處理?
- 我想我需要使用tfidf將文本轉換爲數字數據,然後應用我的SVM。
- 但是,我如何指示他們爲1/-1類。
通常情況下輸入的格式是正確的?
0 0 1
3 4 1
5 9 1
12 1 1
8 7 1
9 8 -1
6 12 -1
10 8 -1
8 5 -1
14 8 -1
如何將垃圾郵件歸檔數據轉換爲上述格式?
如果您正在尋找預煮測試數據,LIBSVM小組會提供大量測試數據。 – tmyklebu
謝謝你的回覆tmyklebu:你可以與我分享這些數據集的鏈接。 –