2013-07-15 122 views
0

我正在嘗試構建一個java應用程序,它在一組文本文檔上訓練SVM模型並根據模型對新文檔進行分類。我已經瀏覽了很多可以做到這一點的java包,並發現libsvm實現是最好的。用於java的文本分類使用LIBSVN庫的SVM

1)我的訓練輸入基本上是一個文本文件,它具有文檔文本和正確的標籤。我知道libsvm軟件包目前僅適用於數字數據,這意味着我必須將我的文本文件和特徵(詞)轉換爲數字形式。 TF-IDF是做這件事的好方法嗎?有沒有一個可以生成TF-IDF的Java庫?

2)中的數據必須被饋送到該模型的形式

<class label> <feature 1>:<value 1> <feature 2>:<value 2> ...... <feature n>:<value n> 

在我的情況下特徵是在文檔中的單詞的值是TF-IDF值。我的解釋是正確的嗎?

是否有任何類似的例子使用libsvm?我做了一些搜索,但沒有運氣!

回答