2012-06-19 79 views
0

我有一個數據集(x,y),其中x是一個n維向量,y是一個m維向量。 (m = 3,n> 2) 我的目標是找出擬合(x,y)數據集的x中最好的多項式。最好的多元多項式擬合在Matlab,Mathematica或R

x的尺寸非常大(現在是25),我不想手動輸入所有可能性(即x1 * x3 * x5,x1 * x4 * x6,...)。我可以使用Matlab,Mathematica和R.我該怎麼做?

此外,我會有興趣聽到您對以下問題的建議:如何從結果中選擇最相關的係數? (也許X1 * X2比X2 * X3更相關)

謝謝

+0

什麼是「最佳多項式」?顯然,(n-1)階多項式將完美地擬合數據,因爲它將穿過所有的點。但它也可能會過度使用你的數據。 – Jonas

+0

我正在尋找2級或3級的多項式。我在這裏談論線性迴歸,對不起,首先不清楚。 –

回答

4

這個問題是不是真的任何的分析平臺,而不是如何正確的做多因素分析。因此,應該增加對主題領域的描述。還需要適當考慮正在發生的隱式多重測試以及應該採取何種懲罰措施來避免推理統計數據的通貨膨脹。底線:你應該讀弗蘭克哈雷爾的「迴歸建模策略」,其中每個這些句子擴展成一個完整的章節。 (我也認爲這個問題過於寬泛,應該關閉或遷移到stats.stackexchange。)它尚未準備好用於黃金時間編碼。

+0

我認爲你是對的,但是我在上述程序中尋找功能。我會在那裏問,然後我會盡力找到這本書。 –

+0

我認爲你用多項式形式投擲25個預測變量的總體策略(當前我讀到)是錯誤的。 Harrells的ols函數可以與rcs()項一起使用以獲得樣條擬合,但他建議在迴歸分析之前充分考慮預測相關性。他還建議你的推論會受到懲罰。如果你在二維組合和多項式擬閤中有25個預測變量,那麼你的自由度將會達到幾百。 –

0

除了迪文的回答是:

對於你的多項式,你可以表達,通過對範德蒙德矩陣的線性迴歸,然後用多元線性迴歸。但是,對於許多變量,您可能會發現,您需要限制模型而不是進一步增加自由度。

此外,我會有興趣聽到您對以下問題的建議:如何從結果中選擇最相關的係數? (也許x1 * x2比x2 * x3更相關)

這歸結爲變量選擇,這是一個衆所周知的難題。我認爲Efron將它命名爲未解決的大問題之一...