2015-07-11 58 views
2

我有一個11列大數據框。我需要將分類變量轉換成二進制值,所以我使用Patsy:在熊貓數據框中映射虛擬變量

attributes = "admit ~ C(gender) + age + C(ethnicity) + C(state) + gpa + sci_gpa + mcat + C(major) + C(tier) + C(same_ins)" 
y, X = dmatrices(attributes, df, return_type="dataframe") 

這很好。不過,我想測試存儲在原始數據幀 E.g的格式的新使用的樣本數據:

gender age ethnicity state gpa sci_gpa gre major tier same_ins 
male  21  Asian  NV  3.4 3.2  .99 Physics 1  1  

有沒有一種簡單的方法將其轉換成相同的格式爲X?

+0

叫我不是很熟悉'Patsy',但如果你只是想分類變量轉化成數據幀的大熊貓二進制值(虛擬),然後頂層'pandas.get_dummies() '功能很適合你的目的。 –

+0

把它轉換成Patsy允許我做的公式是非常重要的。我不確定get_dummies()是否允許我這樣做? – bdevil

回答

0

我想通了。 Patsy存儲dmatrix的元數據。它可以通過

build_design_matrices()