我找到了我的答案。 在這裏,我們必須生成arff文件。
在.arff文件
@RELATION部分將包含目前你的整個文檔中的所有單詞後預處理。每一句話都要型實,因爲TFIDF值是一個真正的價值。
@data部將包含在預處理其TFIDF值來計算。例如 首先將包含tfidf值第一個文檔中出現的所有單詞以及最後的文檔類別。
@RELATION filename
@ATTRIBUTE word1 real
@ATTRIBUTE word2 real
@ATTRIBUTE word3 real
.
.
.
.so on
@ATTRIBUTE class {cacm,cisi,cran,med}
@data
0.5545479562,0.27,0.554544479562,0.4479562,cacm
0.5545479562,0.27,0.554544479562,0.4479562,cacm
0.55454479562,0.1619617,0.579562,0.5542,cisi
0.5545479562,0.27,0.554544479562,0.4479562,cisi
0.0,0.2396113617,0.44479562,0.2,cran
0.5545479562,0.27,0.554544479562,0.4479562,carn
0.5545177444479562,0.26196113617,0.0,0.0,med
0.5545479562,0.27,0.554544479562,0.4479562,med
你生成這個文件後,你可以把這個文件作爲輸入到InfoGainAttributeEval.java
。這對我有用。
爲什麼負面(downvote)? – Ashish