2013-05-14 104 views
-2

一般來說,當您在訓練後獲得的監督學習分類器模型的準確性不符合您的期望時,您遵循的步驟是什麼?示例步驟:特徵重新設計,去除噪聲,降維,過度擬合等。什麼樣的測試(在獲得分類器的精確度之後進行)會使您得出一個結論(比如有很多噪聲,因爲它們的準確度較低),這會使您執行一項操作(移除噪音詞/功能等)。 )?在執行完動作之後,您需要重新訓練分類器,循環繼續進行,直到您取得好成績。機器學習 - 分類器評估

我讀過這個問題上的SO - Feature Selection and Reduction for Text Classification其中有一個很大的接受的答案,但它並沒有談論的步驟,隨後這使你得出一個結論(如上所述)

回答

0

你不說你想要做什麼,總體而言,這取決於你是一名從業者(其他領域的專家)還是機器學習專家。無論如何,你可以看看那裏所有類型的東西在:

一個方面是深度或困難:

- 基礎:簡單的處理方法和程序錯誤。在0和1(或-1和1)之間的特徵,交叉驗證以獲得超值參數(在SVM的情況下爲C和γ)的良好值以及許多其他細節:這個問題很好地覆蓋了它們:Supprt Vector Machine works in matlab, doesn't work in c++

- 中級:處理更深層的概念性錯誤。重新審視您的數據的質量和數量,審查您使用的分類器的類型,例如線性與非線性,生成與區別,檢查文獻中其他人使用類似於您的方法獲得的相同數據的結果。考慮您正在對其他類型的數據進行某種類型的數據測試(源 - 目標問題)的可能性。關鍵字:領域適應,多任務學習,正則化等。

- 高級:你已經用盡了所有的可能性,你需要提高現有技術來解決你的問題。你需要更快的算法。您需要使用較少數據的強大結果,或者需要處理大規模的數據。研究最先進的解決方案並推動他們前進。此外,有時進度並非如此進化/增量,有時你需要採取另一條路線,消除假設等

這種分類主要是正交的,也有用:

- 專家知識:有時候(就像你連接的情況一樣),使用專業知識可以處理很難處理的問題(NLP,Vision)。例如,在人臉識別中,人們根據神經科學的結果使用臉部(眼睛周圍)的一些區域,這些結果表明識別個體的結果表明這是人類關注的內容。如果不是所有有用的表示方法,如SIFT,SURF,LBP,大多數都有一些基於人類視覺的基礎。此外,在你鏈接的例子中,語言學家已經提出了在ML方法中使用NLP的表示法:Feature Selection and Reduction for Text Classification

1

根據您擁有的分類器,您可以使用各種指標。它是一個二元分類器嗎?多級分類器?還是一個多標籤多級分類器?最常用的指標是精度,回憶,F-分數和準確度,但還有一系列其他更詳細的指標,尤其是涉及到多標籤分類器時。

大多數機器學習工具包都實現標準評估指標(Precision,Recall等),但我發現多標籤分類器的指標並未在許多機器學習工具包中實現。

論文A systematic analysis of performance measures for classification tasks是分類器度量的綜合列表。

在多標籤分類指標,一個好的紙:A literature survey of algorithms for multi-label learning

根據您的指標,您可能要自行處理,如過學習,欠擬合,問題或得到更多的數據(或者更準確的數據)或(在極端情況下)切換機器學習算法或方法。參見Domingo的A few useful things to know about Machine Learning