2017-05-28 78 views
1

我在這裏發佈是因爲我無法在其他地方找到任何解決方案。基本上我們在學校學習使用python進行線性迴歸,教授希望我們根據csv表來估計三明治中每種成分的價格以及每種三明治的固定利潤。到目前爲止,我們只是混淆了一個X變量和一個Y變量,所以我很困惑我應該在這裏做什麼?謝謝。這裏是表格:使用線性迴歸估算價格

tomato,lettuce,cheese,pickles,palmetto,burger,corn,ham,price 
0.05,1,0.05,0,0.05,0.2,0.05,0,18.4 
0.05,0,0.05,0.05,0,0.2,0.05,0.05,16.15 
0.05,1,0.05,0,0.05,0.4,0,0,22.15 
0.05,1,0.05,0,0.05,0.2,0.05,0.05,19.4 
0.05,1,0,0,0,0.2,0.05,0.05,18.4 
0,0,0.05,0,0,0,0.05,0.05,11.75 
0.05,1,0,0,0,0.2,0,0.05,18.15 
0.05,1,0.05,0.05,0.05,0.2,0.05,0,18.65 
0,0,0.05,0,0,0.2,0.05,0.05,15.75 
0.05,1,0.05,0,0.05,0,0.05,0.05,15.4 
0.05,1,0,0,0,0.2,0,0,17.15 
0.05,1,0,0,0.05,0.2,0.05,0.05,18.9 
0,1,0.05,0,0,0.2,0.05,0.05,18.75 
+1

你在做原始python或統計軟件包嗎? –

+0

我可以使用numpy –

+2

如果可以,我建議使用熊貓。它幾乎將numpy數組包裝成可行的數據框。 從那裏,你只需要應用多個線性迴歸。如果你已經編寫了一個迴歸工具,那麼你肯定可以擴展它來適應多個變量。 當我第一次開始學習Python(開發一個應用的計量經濟學模型)時,我做了這樣的事情,既然這是一個重要的學習經歷,我不能真正分享代碼,但我可以建議你想要的軟件包是:Sci-kit Learn/OLS統計模型;用於處理數據的大熊貓。 –

回答

1

你有9個單獨的變量回歸(番茄...價格),13個樣品爲他們每個人(13行)。

所以第一種方法可以做一個迴歸的數據點 「番茄」 0.05 0.05 0.05 0.05 0.05 0.05 0.05 0.05 0.05 0.05 然後做一套一個用於「生菜」等,最多「價格」用 18.4 16.15 22.15 19.4 18.4 11.75 18.15 18.65 15.75 15.4 17.15 18.9 18.75

在線觀衆爲看你的CSV數據:http://www.convertcsv.com/csv-viewer-editor.htm,但谷歌電子表格,Excel等能很好地顯示這一點。 (最有可能)也可能在矢量上爲你完成任務(因此一起處理9個變量),但13行中有13個樣本的部分仍然存在。

編輯:壞消息,我很累,並沒有回答完整的問題,對此抱歉。雖然確實可以將前8列(番茄...火腿)作爲時間序列,並對它們進行個別迴歸(這可能是此作業的第一部分),但最後一列(價格)預計將來自第一8.

使用在維基百科,https://en.wikipedia.org/wiki/Linear_regression#Introduction符號估計,你的y矢量是最後一列(價格)時,X矩陣是你的數據(番茄的第一8列.. .ham),在某處擴展爲1-s列。 然後選擇一種估算方法(有些也在該頁面中列出,https://en.wikipedia.org/wiki/Linear_regression#Estimation_methods,但您可能希望選擇一個您在課堂上了解到的方法)。實際的數學就在那裏,NumPy可以進行矩陣/向量計算。如果您選擇「普通最小二乘」,numpy.linalg.lstsq也是這樣(https://docs.scipy.org/doc/numpy/reference/generated/numpy.linalg.lstsq.html#numpy.linalg.lstsq - 您可能會發現添加1-s熟悉的列),因此可用於驗證結果。

+0

但這只是X值的權利? Y值是多少? –

+1

@AlexandreKrabbe這些值是Y-s。 X將只是1 ... 13(或者0 ... 12,如果你想的話),所以行索引。 – tevemadar