多類多輸出分類與蟒蛇

我工作的機器學習（數據挖掘）項目，而不編碼兩種分類和連續屬性，我用數據探索和數據準備步驟中完成，它是在做蟒蛇！多類多輸出分類與蟒蛇

現在我面臨這個問題：我有我的數據集中的分類屬性。經過研究，我發現這種數據最適合的算法是決策樹或隨機forrest分類器！

但我讀過有關決策樹分類屬性的一些類似的問題，發現我使用（scikit學習）庫不與categoricasl屬性的作品。根據this答案檢查here和here，爲使其與分類，我需要我的分類變量編碼成數字的人工作，但我不希望使用的編碼，因爲我將失去我的屬性的一些性質和一些信息，也有一些我的屬性有超過100個不同的值。

所以我想知道：

是那裏，可以建立與分類數據決策樹不進行任何編碼任何其他Python庫？
在this答案是表明像WEKA其他庫可以建立決策樹木分類屬性，所以我的問題是，我可以在同一臺機器學習項目結合2語言？

將在python中進行數據探索和準備，在weka（java）中訓練模型，並將其部署到python-flask web應用程序中？可以嗎？

來源

2017-07-18 Espoir Murhabazi

的answer您有關編碼分類輸入鏈接只是說你應該避免數值的編碼時，您的類別不具有內在的秩序。它正確地建議您在這種情況下使用一個熱門編碼。

簡單地說，機器學習模型上的號碼進行操作，因此，即使你發現你需要原料類沒有明確的編碼庫，但仍必須在內部對其進行編碼，然後才能執行任何計算。

100個類別不是很多，大多數書架庫將處理這樣的輸入就好了。我推薦你試試xgboost

來源

2017-07-18 18:16:27 Imran

好的！感謝您的回覆@Imran，所以我會嘗試一個熱門的編碼聲音好，但會增加我的數據集的維度，所以不得不忘記決策樹並嘗試像SVN和NN這樣的強分類器。 –

多類多輸出分類與蟒蛇

回答

相關問題