2013-07-30 59 views
4

我有一個二進制形式的NxM數據集。我在其上應用了各種維度技術,並繪製了前兩個維度。這就是我如何直觀判斷該技術是否適合我的數據集。是否有更合適/有條理/啓發式/正式的方式來測試我使用的降維技術的適用性?如何評估降維技術?

+0

爲什麼要使用mathlab?它看起來有效率和強大,但它也有幫助?您需要支付黑盒解決方案的價格。 – Bytemain

+0

你有什麼建議? – JustCurious

+0

我想付錢,但我是個窮人。 – Bytemain

回答

0

您可以使用SOM技術在兩個維度中看到幾個暗淡點。還有其他技巧,如果我能記住他們的名字,我會更新答案,但我習慣了SOM。

You can find one good SOM toolbox for matlab clicking here.

這有助於您可視化,但評價應該用衡量什麼是您的降維(SOM的本身可以作爲一個降維技術)重要的效率計。什麼是重要的,以最小的損失壓縮數據?儘可能壓縮數據?以可見的方式表示數據?您大概可以測量技術效率,而無需查看它們是如何改變數據空間表示的,您所需要的只是測量技術效果的好功能。

1

上的數據應用降維的主要目的甚至降維後是採集原始數據的分佈儘可能。因此,我們希望確保我們儘可能多地捕獲數據的方差。假設你有一個N * N矩陣,我們在X上執行SVD(Singular Value Decomposition)。然後,我們將觀察奇異值,即得到的S矩陣中的對角項。 (X = USV

而且要切斷它們以基於所捕獲的期望百分比方差一些指標K

Σ I = 1個ķ西格馬(I)/ Σ I = 1ñ西格馬(ⅰ)

如果選擇Ù的第一K列,那麼你就減少您的原點N維到K維。