2
我已標記的數據,我需要應用一個熱編碼:'786.2'
,'ICD-9-CM|786.2'
,'ICD-9-CM'
,'786.2b|V13.02'
,'V13.02'
,'279.12'
,'ICD-9-CM|V42.81'
是標籤。 |
表示該文檔同時具有2個標籤。所以我寫了這樣的代碼:get_dummies分割字符
labels = np.asarray(label_docs)
labels = np.array([u'786.2', u'ICD-9-CM|786.2', u'|ICD-9-CM', u'786.2b|V13.02', u'V13.02', u'279.12', u'ICD-9-CM|V42.81|'])
df = pd.DataFrame(labels, columns=['label'])
labels = df['label'].str.get_dummies(sep='|')
和結果:
279.12 786.2 786.2b ICD-9-CM V13.02 V42.81
0 0 1 0 0 0 0
1 0 1 0 1 0 0
2 0 0 0 1 0 0
3 0 0 1 0 1 0
4 0 0 0 0 1 0
5 1 0 0 0 0 0
6 0 0 0 1 0 1
不過,現在我只希望每個文檔1個標籤:
'ICD-9-CM|786.2'
爲'ICD-9-CM'
,
'ICD-9-CM|V42.81|'
是'ICD-9-CM'
。
我怎麼能這樣做get_dummies
這樣分開?
是的,你是對的。 – jezrael
@piRSquared - 謝謝。 – jezrael
你的答案很好 – ngoduyvu