2016-12-16 28 views
0

我有我使用存儲我的數據集的象這樣一個分類特徵的1維陣列:(其中每個數據實例屬於許多類別和類別由分離逗號)一個炎熱編碼 - 存儲在一維陣列中的數據

Administration Oral ,Aged ,Area Under Curve ,Cholinergic Antagonists/adverse effects/*pharmacokinetics/therapeutic use ,Circadian Rhythm/physiology ,Cross-Over Studies ,Delayed-Action Preparations ,Dose-Response Relationship Drug ,Drug Administration Schedule ,Female ,Humans ,Mandelic Acids/adverse effects/blood/*pharmacokinetics/therapeutic use ,Metabolic Clearance Rate ,Middle Aged ,Urinary Incontinence/drug therapy ,Xerostomia/chemically induced , 

Adult ,Anti-Ulcer Agents/metabolism ,Antihypertensive Agents/metabolism ,Benzhydryl Compounds/administration & dosage/blood/*pharmacology ,Caffeine/*metabolism ,Central Nervous System Stimulants/metabolism ,Cresols/administration & dosage/blood/*pharmacology ,Cross-Over Studies ,Cytochromes/*pharmacology ,Debrisoquin/*metabolism ,Drug Interactions ,Humans ,Male ,Muscarinic Antagonists/pharmacology ,Omeprazole/*metabolism ,*Phenylpropanolamine ,Polymorphism Genetic ,Tolterodine Tartrate ,Urinary Bladder Diseases/drug therapy , 
... 
... 

該數組的每個元素表示數據實例所屬的類別。我需要用一個熱碼,所以我可以用這些作爲特徵來訓練我的算法。我明白這一點可以用scrikit學習來實現,但我不能確定如何實現它。 (有〜150個可能的類別和各地的1000個數據的情況。)

回答

1

我建議你在大熊貓用於這種用途的get_dummies方法。如果您已經在使用熊貓來存儲數據,那麼界面會更好一些。 sklearn的實現有點涉及。如果你決定去sklearn路線,你要麼需要使用OneHotEncoderLabelBinarizer。雙方將要求你先您的類別轉換,你可以用LabelEncoder完成整數值。