分類與限制

scikit-learn

2014-02-16 72 views 1 likes

我應該如何最好地利用scikit學習以下監督分類問題（簡體），二進制特點：分類與限制

import numpy as np 
from sklearn.tree import DecisionTreeClassifier 

train_data = np.array([[0, 0, 1, 0], 
         [1, 0, 1, 1], 
         [0, 1, 1, 1]], dtype=bool) 
train_targets = np.array([0, 1, 2]) 

c = DecisionTreeClassifier() 
c.fit(train_data, train_targets) 

p = c.predict(np.array([1, 1, 1, 1], dtype=bool)) 
print(p) 
# -> [1]

這工作正常。但是，現在假設我已知先驗信息，即特徵0的存在不包括第1類。這種附加信息是否可以很容易地包含在分類過程中？

目前，我只是做一些（問題特定和啓發式）後處理來調整結果類。我也許也可以根據特徵手動預處理並將數據集分成兩部分，並分別訓練兩個分類器（但是有K個這樣的特徵，這最終以2^K分割）。

來源

2014-02-16 pv.

回答

此類附加信息是否可以輕鬆納入分類過程？

特定於域的黑客留給用戶。要做到這一點，最簡單的方法是預測概率...

>>> prob = c.predict_proba(X)

然後鑽取概率以獲得正確的課程。

>>> invalid = (prob[:, 1] == 1) & (X[:, 0] == 1) 
>>> prob[invalid, 1] = -np.inf 
>>> pred = c.classes_[np.argmax(prob, axis=1)]

這是-np.inf而不是0所以1標籤不上來如領帶破與其他零概率類的結果。

來源

2014-02-17 10:35:48

相關問題

11. 限制在一個分類中發佈
12. 打字稿類型限制分配
13. MongoDB的分類和限制數組
14. FindBugs在Maven中分析的限制類
15. 問題與分頁和限制
16. 分類限額
17. javax.net.ssl.KeyManagerFactory是有限制類錯誤與GAE
18. 更新與限制或類似的
19. XML/XSD與擴展類型和限制
20. 類型限制
21. 與限制
22. 在Tensorflow中限制多類分類中的輸出類
23. SQL限制總數與限制列
24. 分頁與PHP可能無限的限制
25. PHP分頁限制
26. C：分配限制
27. Django分頁限制
28. 分類學期限
29. 限制類和類屬性
30. 限制訪問類