對於計量經濟分析,我試圖對巴西中央銀行和政府研究機構的一些教育,健康和收入數據進行迴歸。 Python,pandas,statsmodels和matplotlib是我最常用於此項目的外部庫。格式化python OLS迴歸的熊貓數據框
數據格式在多個表格中,每年的行數和城市/列的狀態(一些文件具有城市數據,一些具有狀態數據)。
被市,年收入大熊貓數據幀的例子:
1200302 1200328 ... 1720937 1720978 1721000 1721109 1721208 \
1970 0.31 NaN ... NaN NaN NaN 0.20 0.28
1980 0.39 NaN ... NaN NaN NaN 0.45 0.57
1991 0.44 NaN ... NaN NaN 1.45 0.65 0.46
(在頂部的每個數字是一個城市代碼 - 許多城市具有相同的名稱
對於狀態數據,有20個-30歲,而對於城市來說,這個數據只有在進行全國人口普查時纔可用3 - 4年。)
我想比較教育,健康和收入指標。所有指標都已被選中,數據集被導入到熊貓數據框中,並且已經進行了最低限度的清理。
對於多個獨立變量,如何找到跨所有城市/州的OLS或FE迴歸的R值?
現在我有我的程序配置爲在同一時間運行兩個國家或一個獨立變量兩市直線OLS迴歸:
one = df1[col]
two = df2[[col,'const']].join(df3[col])
est = sm.OLS(one, two, missing='drop').fit()
感謝您的迴應! fit()方法中'''cov_type ='nonrobust''參數非常有用,位置I的分類變量永遠不會考慮使用。完成後,我將發佈更新後的數據框設計和用於有限元模型。 – andersan