2013-03-15 91 views
1

我想知道我怎麼能聲稱我正確地捕捉到我的數據中的「噪音」?具體來說,以主成分分析爲例,我們知道在PCA中,經過SVD後,我們可以將小奇異值清零,並使用低秩近似來重構原始矩陣。如何驗證什麼是噪音什麼是真實數據?

那麼我可以聲稱什麼被忽略的確是數據中的噪音? 有沒有評估指標呢?

唯一的方法我能想出是簡單地從重建的數據減去原始數據。

然後,嘗試在它上面擬合高斯,看看健身是否好。

是像DSP那樣的傳統方法?

順便說一句,我認爲在典型的機器學習任務,測量將是跟進分類性能,但因爲我在做純粹的生成模型,沒有任何附加的標籤。

回答

1

個人而言,如果你想證明降噪的功效,我會使用一個基於任務的評估。我假設你爲了某種目的而這樣做,來解決一些問題?如果是這樣,用原始噪聲矩陣和新的乾淨矩陣解決任務。如果後者效果更好,則丟棄的是噪音,用於您對感興趣的任務。我認爲一些客觀的噪音測量很難界定。

4

我看到它的方式,噪聲的定義將取決於問題的領域。因此,減少它的戰略在每個領域都會有所不同。例如,在諸如地震形成分類或面部分類問題的噪聲圖像之類的問題中具有噪聲信號將與由醫療診斷問題或噪聲中由不正確標記的數據產生的噪聲大不相同,因爲與在文檔的語言分類問題中意義不同。

當噪聲是因爲一個給定的(或一組)的數據點,則該解決方案是如忽略這些數據點一樣簡單(雖然識別這些數據點的大部分時間是挑戰性的部分)

從你的例子中,我想你更關心的是噪聲嵌入到特徵中的情況(如地震示例中)。有時,人們傾向於使用降噪濾波器(如中值濾波器(http://en.wikipedia.org/wiki/Median_filter))預處理數據。相反,其他一些人傾向於減少數據的維度以降低噪聲,並且在這種情況下使用PCA。

這兩種策略是有效的,通常人們都試一下和交叉驗證它們,看看哪一個給了更好的結果。

你做了什麼是檢查高斯噪聲的好指標。然而,對於非高斯噪聲的指標可以給你假陰性(壞健身,但還是不錯的降噪)

+0

感謝您的回答,但我的問題是真的只關係到你的最後一段,我想「抓住」噪聲。 我認爲很難像Ben說的那樣定義。 – Jing 2013-03-16 12:51:08