0
我正在嘗試構建一個java應用程序,它在一組文本文檔上訓練SVM模型並根據模型對新文檔進行分類。我已經瀏覽了很多可以做到這一點的java包,並發現libsvm實現是最好的。用於java的文本分類使用LIBSVN庫的SVM
1)我的訓練輸入基本上是一個文本文件,它具有文檔文本和正確的標籤。我知道libsvm軟件包目前僅適用於數字數據,這意味着我必須將我的文本文件和特徵(詞)轉換爲數字形式。 TF-IDF是做這件事的好方法嗎?有沒有一個可以生成TF-IDF的Java庫?
2)中的數據必須被饋送到該模型的形式
<class label> <feature 1>:<value 1> <feature 2>:<value 2> ...... <feature n>:<value n>
在我的情況下特徵是在文檔中的單詞的值是TF-IDF值。我的解釋是正確的嗎?
是否有任何類似的例子使用libsvm?我做了一些搜索,但沒有運氣!