2014-01-11 99 views
1

我「用信息增益,PCA和遺傳算法的文本分類」上工作,但執行預處理後(詞根,停用詞去除,TFIDF)對文檔m困惑如何向前邁進了信息增益的一部分。信息增益計算文本文件?

出的文件包含TFIDF值。

WORD - TFIDF VALUE

一起(字) - 0.235(TFIDF值)

來(字) -

使用信息增益WEKA當0.2548(TFIDF值) (「InfoGainAttributeEval.java」)它需要.arff文件格式作爲輸入。

是否有任何轉換文本文件到.arff格式。 或任何其他方式預成型除weka之外的信息增益?

是否有任何其他開源的文件計算信息增益?

+0

爲什麼負面(downvote)? – Ashish

回答

0

我找到了我的答案。 在這裏,我們必須生成arff文件。

在.arff文件

@RELATION部分將包含目前你的整個文檔中的所有單詞後預處理。每一句話都要型實,因爲TFIDF值是一個真正的價值。

@data部將包含在預處理TFIDF值來計算。例如 首先將包含tfidf值第一個文檔中出現的所有單詞以及最後的文檔類別。

@RELATION filename 
@ATTRIBUTE word1 real 
@ATTRIBUTE word2 real 
@ATTRIBUTE word3 real 
. 
. 
. 
.so on 
@ATTRIBUTE class {cacm,cisi,cran,med} 

@data 
0.5545479562,0.27,0.554544479562,0.4479562,cacm 
0.5545479562,0.27,0.554544479562,0.4479562,cacm 
0.55454479562,0.1619617,0.579562,0.5542,cisi 
0.5545479562,0.27,0.554544479562,0.4479562,cisi 
0.0,0.2396113617,0.44479562,0.2,cran 
0.5545479562,0.27,0.554544479562,0.4479562,carn 
0.5545177444479562,0.26196113617,0.0,0.0,med 
0.5545479562,0.27,0.554544479562,0.4479562,med 

你生成這個文件後,你可以把這個文件作爲輸入到InfoGainAttributeEval.java。這對我有用。

+0

如果在理解上述過程中有任何問題只是添加評論 – Ashish