2016-11-30 65 views
0

我是NLP的新手,有一個非常簡單的問題,我希望問很多,但老實說在任何地方都找不到:在同一個分類器(如unigrams + bigrams)中可以使用多種類型的ngram?可以在同一個分類器中使用多個ngram嗎?

我試過這樣做,至少對於樸素貝葉斯來說,它給我的準確性比只有bigrams更高(雖然低於unigrams),但我不確定它是否是合法的做法。我所關心的一個問題是,如果這是一個適用的術語,即'運氣'和'好運'都接近信息最豐富的特徵列表的頂部,那麼存在多重共線性的可能性。

回答

0

簡短答案是「是」。較長的答案是,你可以使用任何你想要的作爲訓練功能。但我懷疑你正在使用原始的unigrams和bigrams作爲你的功能。如果bigrams本身不如unigrams有用,那麼顯然沒有足夠的訓練數據讓你的應用程序從中得出有用的推論。添加一些較低級別的功能(例如,POS標籤的一個bigram),其具有較少的可能性並因此更容易概括。

+0

謝謝!如果我有足夠的時間(項目的截止日期並不那麼遙遠),我會嘗試實施類似POS標籤的事情。順便說一下,我的訓練數據僅包含600條消息(通常Kickstarter的評論非常冗長,但不包括推文,希望能夠彌補微不足道的訓練集大小)。在相關說明中,如果情緒分析是輔助工具以更深入地進行人工分析,並且不要問一個單獨的問題,那麼可以將這樣一個小數據集和68-70%的準確度(我有3個類別)評論? – werblilben

+0

是否有長消息,如果每條消息都作爲一個整體進行評估,則有600個數據點。所以請避免過度訓練,例如bigrams。可接受的準確度取決於您的目標,以及(對於項目)當前狀態。 – alexis

+0

再次感謝:)在討論各種Kickstarter項目時,我使用SA來獲得動態的鳥瞰圖,所以我認爲〜68%的準確性應該足夠了,因爲一些關於電影評論SA的論文甚至提供了64%準確性作爲可敬的結果。 – werblilben

相關問題