2016-02-29 64 views
0

我想知道是否可以得到一些問題的幫助。嘈雜的數據集的多項式迴歸

我正在爲我的一個前實驗室創建一個工具,它使用來自基於物理機器(大量噪音)的數據,結果爲簡單的x,y座標。我想確定數據集的局部最大值,但是,由於該組中存在一堆噪聲,因此您不能只檢查點之間的斜率以確定峯值。

爲了解決這個問題,我考慮使用多項式迴歸來有點「平滑」數據集,然後從結果模型中確定局部最大值。

我已經通過這個鏈接 http://scikit-learn.org/stable/auto_examples/linear_model/plot_polynomial_interpolation.html,但它只告訴你如何創建一個非常合適的模型。它沒有告訴你是否有一個綜合度量標準來衡量哪個是最好的模型。我應該通過Chi平方嗎?或者還有其他一些更好的工具或集成到scikit-learn工具包中的指標?

感謝先進!

+0

我會建議這種問題的最大熵算法。 – Mehno

回答

0

Link procided esentially向您展示瞭如何在多項式特徵之上構建一個Ridge迴歸。因此,這不是一個「緊密配合」,因爲您可以通過正則化(alpha參數)控制它 - 優先於參數。現在,你認爲什麼是「最佳模式」 - 作爲最佳迴歸有無數種可能的標準,每種標準都通過不同的標準進行測試。你需要回答自己 - 你感興趣的措施是什麼。它是否應該是平滑與緊密適應之間的某種「黃金比例」?或者,你可能想要一個最多隻有一些光滑度的模型,這可以最小化一些誤差測量(距離點的平均距離?)?還有一種方法是測試它捕獲底層流程的程度 - 通過某種典型的驗證(如交叉驗證等),您可以在數據的子集上重複構建模型並檢查維護部分的錯誤。有許多可能(並且完全有效!)的方法 - 一切取決於你想要回答的確切問題。不幸的是,「什麼是最好的模式」並不是一個好問題。