2017-02-27 85 views
1

我有一個多類的機器學習問題爲此,我將設法在這樣不同的方法如邏輯迴歸,決策樹,多層感知器等機器學習,強調某些觀察?

在數據集中的觀測值具有爲1的索引的屬性-5定義了某個觀察得到正確分類的重要性(指標1非常重要,根本不重要)。我的問題是:

問題1:我應該如何向模型強調低指數觀測具有更重要的意義?我正在考慮複製這些觀察結果,以便模型更好地擬合較低指數的觀測值,還有哪些其他方法可行?

問題2:我可以使用哪些性能評估標準來找到預測這些低指數觀測值的模型? (APPART從計算的索引的正確預測實例之間的分佈。)

問候,

回答

0

答1:呈現設定更經常訓練的重要模式是用於此的標準方法。如果您的訓練算法具有類似於訓練率的特性(例如,如果您使用反向傳播),那麼您也可以爲高優先級模式增加此參數。

答案2:我會使用加權均方誤差,並給予高優先級模式的錯誤更大的權重。

+0

關於第二個問題的答案,我不知道如何使用均方誤差來分類問題? – Josi

+0

@Josi:我假設(1)你做了監督分類和(2)單元有連續的輸出值。如果情況並非如此,則不同的錯誤測量可能更有意義。 –

+0

第一個假設是真實的,但不是第二個假設。輸出是離散的,所以輸出只是一個類標籤,只有一個標籤是正確的,而其他所有標籤都是不正確的。我一直在尋找一些方法,比如F分數和海明損失,但我很難做出決定。 我在尋找的是一個性能評估標準: - 與分類精度有點互補 - 相當簡單 - 爲什麼我應該使用這種方法的某種動機 – Josi