2014-02-18 44 views
0

我正在處理rapidminer中的文本分類。我有單獨的測試和訓練分割。我使用n-fold交叉驗證將信息增益應用於數據集,但我對如何將其應用於單獨的測試集感到困惑?下面附接圖像enter image description here如何使用獨立測試集在rapidminer中應用InformationGain?

在圖我已連接從第一單詞列表輸出「流程文檔從文件」,其用於訓練第二「處理的文檔從文件」,它被用於測試,但我要應用的減少功能到第二個「從文件處理文件」這可能應該是從「按重量選擇」(縮小尺寸)操作員返回的,但它返回的權重,我無法提供第二個「從文件處理文件」。我搜索了很多,但沒有設法找到任何可以滿足我的需求的東西?

Rapidminer是否真的有可能單獨進行測試/火車分割並應用特徵選擇?

有什麼辦法可以將這些權重轉換成單詞列表嗎?請不要說在存儲庫中寫入(我不能這樣做)?

在這種情況下,當我有不同的測試/火車分裂,需要應用特徵選擇,我將如何確保測試/火車分裂具有相同的維度向量?

我真的在這困了,好心幫...

回答

1

較低Process Documents操作後,立即在Apply Model前插入一個新的Select By Weight運營商。使用Multiply操作員複製Weight By Information Gain操作員的權重並將其連接到新的Select By Weight操作員的輸入。

+0

它爲我工作,很多謝謝...! –

相關問題