信息增益計算文本文件？

我「用信息增益，PCA和遺傳算法的文本分類」上工作，但執行預處理後（詞根，停用詞去除，TFIDF）對文檔m困惑如何向前邁進了信息增益的一部分。信息增益計算文本文件？

我出的文件包含字有TFIDF值。

像 WORD - TFIDF VALUE

一起（字） - 0.235（TFIDF值）

來（字） -

使用信息增益WEKA當0.2548（TFIDF值）（「InfoGainAttributeEval.java」）它需要.arff文件格式作爲輸入。

是否有任何轉換文本文件到.arff格式。或任何其他方式預成型除weka之外的信息增益？

是否有任何其他開源的文件計算信息增益？

來源

2014-01-11 Ashish

爲什麼負面（downvote）？ – Ashish

我找到了我的答案。在這裏，我們必須生成arff文件。

在.arff文件

@RELATION部分將包含目前你的整個文檔中的所有單詞後預處理。每一句話都要型實，因爲TFIDF值是一個真正的價值。

@data部將包含在預處理其TFIDF值來計算。例如首先將包含tfidf值第一個文檔中出現的所有單詞以及最後的文檔類別。

@RELATION filename 
@ATTRIBUTE word1 real 
@ATTRIBUTE word2 real 
@ATTRIBUTE word3 real 
. 
. 
. 
.so on 
@ATTRIBUTE class {cacm,cisi,cran,med} 

@data 
0.5545479562,0.27,0.554544479562,0.4479562,cacm 
0.5545479562,0.27,0.554544479562,0.4479562,cacm 
0.55454479562,0.1619617,0.579562,0.5542,cisi 
0.5545479562,0.27,0.554544479562,0.4479562,cisi 
0.0,0.2396113617,0.44479562,0.2,cran 
0.5545479562,0.27,0.554544479562,0.4479562,carn 
0.5545177444479562,0.26196113617,0.0,0.0,med 
0.5545479562,0.27,0.554544479562,0.4479562,med

你生成這個文件後，你可以把這個文件作爲輸入到InfoGainAttributeEval.java。這對我有用。

來源

2014-01-30 09:55:55 Ashish

如果在理解上述過程中有任何問題只是添加評論 – Ashish

信息增益計算文本文件？

回答

相關問題