2014-07-16 27 views
0

我想在python中執行一項任務,我通常在SAS中執行此任務,以便學習python。我的工作在官方統計中,我應該根據年齡組和性別列出一些關於就業的表格。到目前爲止,數據已經從SAS導出爲csv並導入到sqlite中。我現在面臨的問題是將年齡分成年齡組。python中SAS格式的替代方法是什麼?

數據集中的變量是年齡和性別,SAS中我通常會使用一種格式來將年齡重新編碼爲年齡段。 Python似乎沒有SAS格式的等價物。我認爲處理格式的最好方法是將它們作爲sqlite中的單獨表格(包含年齡和年齡組作爲變量),並將基於年齡的兩個表格作爲關鍵詞加入。但是,sas格式的值是範圍(開始和停止),我不確定如何以聰明的方式填充年齡組表。使用這種小格式,重新編碼可以通過sql中的case語句完成,但是表格方法對於其他更大的格式(例如,工業分類標準(SIC 2007)。有關如何解決這個問題的任何想法?

回答

1

它可以連接表與任意條件:

CREATE TABLE Data(Age, [...]); 
CREATE TABLE AgeGroups(AgeGroup, Min, Max); 
... 
SELECT AgeGroups.AgeGroup, 
     Data.[...], 
FROM Data 
JOIN AgeGroups ON Data.Age BETWEEN AgeGroups.Min AND AgeGroups.Max; 

(此無關的Python)

相關問題