2014-04-28 64 views
0

我有使用Weka進行聚類的高維(200維)向量。我應該如何用ARFF格式表示它?如何在Weka中爲高維矢量創建ARFF文件?

的數據是這樣的(與DIM1,DIM2等是實數):

vector_label DIM1 DIM2爲dim3 ...... dim200

這裏的鏈接 - http://weka.wikispaces.com/ARFF+%28stable+version%29告訴我,我應代表如下:

@RELATION vectors 
@ATTRIBUTE vector_label STRING 
@ATTRIBUTE dim1 NUMERIC 
@ATTRIBUTE dim2 NUMERIC 
@ATTRIBUTE dim3 NUMERIC 
.... 
@ATTRIBUTE dim200 NUMERIC 

@DATA 
vector1,0.1,0.2,-2.1, ...... ,-0.1 

等等。

這是正確的嗎? 我問的原因是這個鏈接並沒有對高維向量做任何明確的說明,但我覺得可能有更好的表達方式,我不知道。

回答

1

該表示是正確的。當你有更多或更少的維度時,ARFF表示沒有特別的區別。

但是,如果向量是稀疏(大部分維度值都爲零大部分載體,你可能希望使用Sparse ARFF表示,這是更加緊湊和節省磁盤空間和內存。

1

你的例子正確,如果你的數據是不稀疏。如果你的數據稀疏使用sparse arff file format。 可以找到一個例子here