用於java的文本分類使用LIBSVN庫的SVM

我正在嘗試構建一個java應用程序，它在一組文本文檔上訓練SVM模型並根據模型對新文檔進行分類。我已經瀏覽了很多可以做到這一點的java包，並發現libsvm實現是最好的。用於java的文本分類使用LIBSVN庫的SVM

1）我的訓練輸入基本上是一個文本文件，它具有文檔文本和正確的標籤。我知道libsvm軟件包目前僅適用於數字數據，這意味着我必須將我的文本文件和特徵（詞）轉換爲數字形式。 TF-IDF是做這件事的好方法嗎？有沒有一個可以生成TF-IDF的Java庫？

2）中的數據必須被饋送到該模型的形式

<class label> <feature 1>:<value 1> <feature 2>:<value 2> ...... <feature n>:<value n>

在我的情況下特徵是在文檔中的單詞的值是TF-IDF值。我的解釋是正確的嗎？

是否有任何類似的例子使用libsvm？我做了一些搜索，但沒有運氣！

有幾個例子。您可以查看LIBSVM data set page上的rcv1數據集。這是一個文檔分類數據集（LIBSVM表示中已經使用TF-IDF格式）。關於這個問題的文章很多，如Text Categorization with Support Vector Machines by Joachims。

2013-07-15 20:37:40

回答