2014-01-12 89 views
0

我試圖分類文本文檔到類別,例如:Java SVM文本分類,訓練和測試文件?

文獻1:「籃球是一項很好的運動」 --->分類:體育
文獻2:「世界戰爭2 ..」 --->類別:歷史
...

我的gool是創建一個帶有SVM算法的Java接口!
所以,我應該使用SVM Java庫,我發現了兩個:

  • SVMLIGH
  • LIBSVM

我應該使用的第一個或第二?

我不得不做很多研究,我發現我應該做兩兩件事:

  • 我應該準備一個培訓檔案。
    在SVM中有這個文件的特殊格式(例如:1 1:317.5)
    但問題是:從我應該生成此文件?僅來自文檔?或從別的東西?

  • 我應該有一個測試文件,這意味着一個新的文件進行分類。我應該將新文檔轉換爲SVM Test文件格式嗎?

這是正確的嗎?

請指導我我真的迷路了,我不知道該怎麼辦! PLZ

回答

1

是的,你應該改變格式SVM標準 您的SVM分類沒有關於文字的想法,首先你要改變你的文本(火車,測試),以standrad格式 你可以Weka啓動分類,秧雞有簡單的GUI &,你可以當你得到你的分類&信心,你的數據集點幾下 分類是那麼準確實現它在Java 你可以在你的Java代碼太

PS使用Weka的: 1 WEKA文本進行分類第一次&初學者用戶:http://www.youtube.com/watch?v=IY29uC4uem8

2- http://www.cs.waikato.ac.nz/ml/weka/

+1

你能告訴它有Java代碼中使用了Weka SVM分類文件的任何鏈接 – swapnil7