我是一個絕對的初學者。從未使用Java在Weka中創建分類器或任何內容我之前使用過該接口。基本上我有點失落我已經看過weka的過濾器類並且稍微玩了一下。我的文件是文本文件,我需要將它們分成兩類。我需要在weka中使用SVM來過濾使用Java的文檔
我不知道我是如何定義的類別或如何將文件加載到被歸類
:-(
任何幫助/教程或指針將不勝感激的IDE。
我是一個絕對的初學者。從未使用Java在Weka中創建分類器或任何內容我之前使用過該接口。基本上我有點失落我已經看過weka的過濾器類並且稍微玩了一下。我的文件是文本文件,我需要將它們分成兩類。我需要在weka中使用SVM來過濾使用Java的文檔
我不知道我是如何定義的類別或如何將文件加載到被歸類
:-(
任何幫助/教程或指針將不勝感激的IDE。
我發現這個Java教程非常有益的,雖然也有在網上提供的資源非常少(我發現)
http://www.cs.waikato.ac.nz/ml/weka/index_documentation.html
希望這有助於
第一次使用weka是一種痛苦,但你需要經歷它
另外,我嘗試過weka,但是由於JVM的內存異常,我不得不轉儲它。使用Ruby的小型集羣算法,性能就是如此更好。
任何方式,在這裏是如何在WEKA使用SVM:
您可以按照本教程的如何在WEKA使用SVM:www.stat.nctu.edu.tw/~misg/WekaInC現在,你將需要ARFF格式的數據(並且我建議你使用這個數據,因爲我的exp,它有幫助,數據看起來比WEKA的預期更加結構化)。所以,你可以使用我爲自己寫的XML2ARFF-Converter。您可以修改它以讀取文本文件並將您的文本文件轉換爲ARFF。
你能對出詳細說明內存異常?我正在調查weka是否適合我,這些問題有多糟?你看過增加堆嗎? http://weka.wikispaces.com/OutOfMemoryException – Blub 2011-05-06 15:11:50
我沒有多少探索。但weka是一個廣泛使用的庫,我相信你會得到一些聰明的解決方法。我沒有使用它,因爲我有理由使用我正在嘗試學習的Ruby。 – zengr 2011-05-06 15:45:19
如果您使用的是大型數據集,那麼通常會遇到內存限制 - 如果您使用weka命中這些數據庫,請嘗試使用-Xmx標誌增加JVM堆大小:「java -Xmx8000m -jar weka.jar」將運行一個8000mbs的堆分配weka。 – 2014-05-07 13:18:28