這是我的問題。我需要實現一個多目標決策樹算法。多目標是多標籤學習的延伸,其中標籤不是二元的,而是可以是連續的,分類的等等。例如,多標籤分類問題的標籤向量看起來像這樣{1,0,1,0,0,0,1},而對於多目標可能看起來像這樣{2,35,3,-2, 24}。 我的問題是這樣的。如果我有一個需要3個離散值的標籤,我如何在向量中表示它們? 可以說我有一個叫做工作的標籤,需要3個值,機械師,老師和運動員。我如何編碼這個標籤才能在矢量中使用它? 在決策樹中的每個節點上,爲了找到我的分割,我需要計算此節點中所有標籤向量的均值向量(我正在使用方差方法來查找我的分割)。如果我有二進制標籤,這很容易,因爲添加0和1不會造成任何問題。如果我用0,1,2編碼這3個作業,那麼這是問題,因爲添加具有標籤運動員的標籤矢量不僅僅是添加具有作業機制的矢量並且平均矢量不準確。多目標決策樹
讓我們來看看這個例子。我有這3個標籤:
job: {mechanic,teacher,athlete}
married:{yes,no}
age: continuous value
這說起來容易,婚後的標籤可以被編碼爲{0,1}和時效標記爲連續編號。但是,我如何編碼工作標籤?將它編碼爲{0,1,2}會導致下一個問題。設想一個節點中的2個標籤向量:{0,0,45}對應於機械師,已婚和45歲,{2,1,48}對應於運動員,未結婚,45歲。平均向量是{1,0.5,46.5}。有了這個向量,我可以預測,落入該節點的實例的年齡爲46.5歲,我可以說未結婚的實例(規則說大於或等於0.5是1),我可以說它的工作是一名教師。老師的工作是完全錯誤的,而其他人都可以。你現在看到編碼分類標籤的問題。一個幫助或建議?謝謝:d
感謝downvoting沒有理由,您必須真正成爲負責人 – jojoba 2012-01-02 21:25:27