我工作的機器學習(數據挖掘)項目,而不編碼兩種分類和連續屬性,我用數據探索和數據準備步驟中完成,它是在做蟒蛇!多類多輸出分類與蟒蛇
現在我面臨這個問題:我有我的數據集中的分類屬性。 經過研究,我發現這種數據最適合的算法是決策樹或隨機forrest分類器!
但我讀過有關決策樹分類屬性的一些類似的問題,發現我使用(scikit學習)庫不與categoricasl屬性的作品。根據this答案檢查here和here,爲使其與分類,我需要我的分類變量編碼成數字的人工作,但我不希望使用的編碼,因爲我將失去我的屬性的一些性質和一些信息,也有一些我的屬性有超過100個不同的值。
所以我想知道:
- 是那裏,可以建立與分類數據決策樹不進行任何編碼任何其他Python庫?
- 在this答案是表明像WEKA其他庫可以建立決策樹木分類屬性,所以我的問題是,我可以在同一臺機器學習項目結合2語言?
將在python中進行數據探索和準備,在weka(java)中訓練模型,並將其部署到python-flask web應用程序中? 可以嗎?
好的!感謝您的回覆@Imran,所以我會嘗試一個熱門的編碼聲音好,但會增加我的數據集的維度,所以不得不忘記決策樹並嘗試像SVN和NN這樣的強分類器。 –