2013-05-30 38 views
-1

我正在學習應用使用八度的機器學習技巧。在機器學習中,分類問題試圖根據其特徵對案例進行分類。例如,機器學習算法可能會查看100個因素來嘗試並決定一個人是否會默認貸款。 (即,如果該人屬於該班級,則輸出將默認或該班級不會默認)。我知道「錯誤分析」(即手動分析錯誤分類的輸出)可以幫助識別機器學習分類問題中的錯誤。:對於非分類任務,是否有模擬錯誤分析?

是否存在非分類問題的類比?具體來說,如果一個機器學習算法試圖預測一個值(例如一個人的收入),但卻弄錯了,是否有一個模擬錯誤分析來試圖理解算法爲什麼失敗?

+1

在[CrossValidated](http://stats.stackexchange.com)上,這將是更主題。 –

回答

1

絕對!如果您記錄每次預測的預測結果有多遠,通常可以非常清楚地確定趨勢,但這種方法通常取決於以一種巧妙的方式將數據可視化。

例如,當你的平均誤差是100,但是在你的一個輸入變量真的很高或很低(定性地)你的平均誤差跳到1000的例子中,你可能需要調整以更好地說明那些高和低的價值。

由於如此多的機器學習比科學更具藝術性,所以很難準確地說出哪種形式的錯誤分析對於您的具體問題會有意義,但一般的解決方案是查看受限樣本集的平均誤差趨勢即我的網球得分預測的外線超過90度時的平均誤差是多少?)

理論上你應該選擇你的測試,以便狀態之間的差異很明顯,並且會導致明顯的變化。例如,如果您不考慮一個變量,您可能需要對該變量的值與該變量的值進行掃描,並對其進行可視化繪圖,以確定它是否看起來很嘈雜,或者確定是否包含一個明確的趨勢那個變量。

我希望這是明確的,讓我知道如果您有任何問題或希望澄清。