2017-02-15 43 views
0

我想用k-means離散化兩個值(0或1)中的時間序列數據。我的時間序列數據是每個基因的矩陣時間(line = time,column = gene)。例如:用於所有數據或每個功能的k-means?

t\x x1 x2 x3 
1 0.122 0.324 0.723 
2 0.543 0.573 0.329 
3 0.901 0.445 0.343 
4 0.612 0.353 0.435 
5 0.192 0.233 0.023 

我的問題:我應該使用k個簇爲每列(所以我將每列累加k.number_columns k個聚類)矩陣的所有數據或k個簇?我的基因是獨立個體

回答

0

兩者都可以工作。

一次剝離所有屬性的好處是每次只給出一個符號,即單變量系列。

但另一方面,如果列是獨立的,如果你單獨分離它們,質量可能會更好。請注意,對於一維數據,如果有噪聲,分位數可能比k-均值(對噪聲敏感)好得多。

+0

謝謝。我對此表示懷疑。我將單獨分離 – realbas

相關問題