秧雞：列車和不同的格式（ARFF和文本格式）測試集

我有一個內建stringtowordvector，包含功能的ARFF文件，它的TFIDF懷特這樣的：秧雞：列車和不同的格式（ARFF和文本格式）測試集

@relation 'sss' 
-weka.filters.unsupervised.attribute.StringToWordVector-R-W100-prune-rate-1.0-C-T-I-N0-S-stemmerweka.core.stemmers.NullStemmer -tokenizerweka.core.tokenizers.WordTokenizer -delimiters \" ؟،؛\\r\\t\\n.,;:\\\'\\\"()?!-><#$\\\%&*+/@^_=[]{}|`~\"' 


@attribute @@[email protected]@ {mis,pol} 
@attribute water numeric 
@attribute start numeric 
@attribute government numeric 

{2 0.285724,6 0.338022,7 0.517187,8 0.164801,9 ...} 
{7 1.191401,8 0.560813,9 0.904039,10 0.322267....} 
.. 
.... 
{0 pol,6 1.276448,36 0.702977,...}

現在我有一個測試包含2個班級文本的文件夾（如train set：pol和mis）。，我想分類這個測試和評估我的火車set.i知道爲此目的我應該使用批次過濾器，所以我看這個鏈接： http://weka.wikispaces.com/Use+WEKA+in+your+Java+code#Filter-Batch%20filtering 基於這個鏈接，我的測試和訓練集應該是在相同的格式（簡單的文本格式）。我不知道當我的火車設置爲arff格式並且我的測試設置爲文本格式時我應該怎麼做（我沒有設置文本文件格式的火車）

來源

2014-01-14 serenei

You可以執行以下操作：

將您以前的訓練集文件設置爲ARFF格式，而不應用StringToWordVector篩選器。
使用TextDirectoryToARFF生成測試集文件。
現在您有兩個ARFF文件，其中包含純文本格式的文本。因此，以批處理模式應用StringToWordVector過濾器。

來源

2014-01-15 07:07:27

我的問題是：我沒有訓練集中的文本格式，我只是用提到的格式arff文件。 – serenei

看起來很奇怪，你說你沒有使用文本格式的訓練集，因爲你正在發佈一個ARFF文件，該頭文件是一個名爲'sss''的原始關係，並且在應用了一個'StringToWordVector'過濾器之後。在我的回答中，我的意思是採取原始的'@relation'sss''文件。 –

讓我描述這個問題：我有ARFF格式的樹數據集，它們的屬性不匹配（我在這個鏈接中詢問了這些問題：http：//stackoverflow.com/questions/21067439/how-to-match-attributes- order-of-two-instances-in-weka）。我使用'StringToWordVector'**單獨構建了這些ARFF文件**。現在我有一個格式化的arff文件，現在我想測試一個外部測試集，但我還沒有原始文件files.is可能做到這一點？ – serenei

秧雞：列車和不同的格式（ARFF和文本格式）測試集

回答

相關問題