2016-11-30 82 views
1

免責聲明:我是機器學習領域的新手,儘管在過去一個月中我已經完成了我的公平份額研究,但對此主題仍缺乏深入的理解。使用scikit的多輸出分類決策樹

我一直在玩scikit庫,目的是學習如何基於歷史信息預測新數據,並對現有信息進行分類。

我試圖解決這可能是相關2個不同的問題:

問題1

給出一個包含有一個數據組行R1,...,RN與特徵F1 ... FN,和目標每行的行,確定行R(N + 1)屬於哪個組。

現在,目標值不是奇異的,它是一組值;我已經能夠提出的最佳解決方案是將這些值集合表示爲串聯,這創建了一個人造類,並允許我僅使用一個屬性來表示多個值。有沒有更好的方法呢?

我期望的是能夠傳遞全新的一組行,並被告知哪些是每個目標值。

問題2

給出一個包含行R1,...,RN與特徵F1 ... FN,預測R(N + 1)的基礎上的特徵的頻率的值的數據集。

這裏有幾個方面的考慮:

  1. 大多數功能在本質上是絕對的。
  2. 某些功能是日期,所以在進行預測時,日期應該是未來相對於歷史數據。
  3. 頻率分析需要每行完成,因爲某些值集合可能無效。

我在這裏的問題是:是否有任何過程/ ML算法,給出的歷史數據將能夠預測一組新的基於參數頻率的值集?

如果您有任何建議,請讓我知道。

回答

0

關於問題1,如果您希望目標值的不同組成部分是獨立的,則可以通過爲每個組件構建分類器來解決問題。也就是說,如果該功能是F = (F_1, F_2, ..., F_N)和目標Y = (Y_1, Y_2, ..., Y_N),創建具有特色F分類和目標Y_1,第二分類與特點F和目標Y_2

對於問題2,如果你不處理一個時間序列,IMO可以做的最好就是預測每個特徵的最頻繁值。

這就是說,我相信你的問題更適合像交叉驗證的另一個堆棧交換。