2
我有一個11列大數據框。我需要將分類變量轉換成二進制值,所以我使用Patsy:在熊貓數據框中映射虛擬變量
attributes = "admit ~ C(gender) + age + C(ethnicity) + C(state) + gpa + sci_gpa + mcat + C(major) + C(tier) + C(same_ins)"
y, X = dmatrices(attributes, df, return_type="dataframe")
這很好。不過,我想測試存儲在原始數據幀 E.g的格式的新使用的樣本數據:
gender age ethnicity state gpa sci_gpa gre major tier same_ins
male 21 Asian NV 3.4 3.2 .99 Physics 1 1
有沒有一種簡單的方法將其轉換成相同的格式爲X?
叫我不是很熟悉'Patsy',但如果你只是想分類變量轉化成數據幀的大熊貓二進制值(虛擬),然後頂層'pandas.get_dummies() '功能很適合你的目的。 –
把它轉換成Patsy允許我做的公式是非常重要的。我不確定get_dummies()是否允許我這樣做? – bdevil