0

我工作的機器學習(數據挖掘)項目,而不編碼兩種分類和連續屬性,我用數據探索和數據準備步驟中完成,它是在做蟒蛇!多類多輸出分類與蟒蛇

現在我面臨這個問題:我有我的數據集中的分類屬性。 經過研究,我發現這種數據最適合的算法是決策樹或隨機forrest分類器!

但我讀過有關決策樹分類屬性的一些類似的問題,發現我使用(scikit學習)庫不與categoricasl屬性的作品。根據this答案檢查herehere,爲使其與分類,我需要我的分類變量編碼成數字的人工作,但我不希望使用的編碼,因爲我將失去我的屬性的一些性質和一些信息,也有一些我的屬性有超過100個不同的值。

所以我想知道:

  • 是那裏,可以建立與分類數據決策樹不進行任何編碼任何其他Python庫?
  • this答案是表明像WEKA其他庫可以建立決策樹木分類屬性,所以我的問題是,我可以在同一臺機器學習項目結合2語言?

將在python中進行數據探索和準備,在weka(java)中訓練模型,並將其部署到python-flask web應用程序中? 可以嗎?

回答

1

answer您有關編碼分類輸入鏈接只是說你應該避免數值的編碼時,您的類別不具有內在的秩序。它正確地建議您在這種情況下使用一個熱門編碼。

簡單地說,機器學習模型上的號碼進行操作,因此,即使你發現你需要原料類沒有明確的編碼庫,但仍必須在內部對其進行編碼,然後才能執行任何計算。

100個類別不是很多,大多數書架庫將處理這樣的輸入就好了。我推薦你試試xgboost

+0

好的!感謝您的回覆@Imran,所以我會嘗試一個熱門的編碼聲音好,但會增加我的數據集的維度,所以不得不忘記決策樹並嘗試像SVN和NN這樣的強分類器。 –