可以在同一個分類器中使用多個ngram嗎？

我是NLP的新手，有一個非常簡單的問題，我希望問很多，但老實說在任何地方都找不到：在同一個分類器（如unigrams + bigrams）中可以使用多種類型的ngram？可以在同一個分類器中使用多個ngram嗎？

我試過這樣做，至少對於樸素貝葉斯來說，它給我的準確性比只有bigrams更高（雖然低於unigrams），但我不確定它是否是合法的做法。我所關心的一個問題是，如果這是一個適用的術語，即'運氣'和'好運'都接近信息最豐富的特徵列表的頂部，那麼存在多重共線性的可能性。

來源

2016-11-30 werblilben

簡短答案是「是」。較長的答案是，你可以使用任何你想要的作爲訓練功能。但我懷疑你正在使用原始的unigrams和bigrams作爲你的功能。如果bigrams本身不如unigrams有用，那麼顯然沒有足夠的訓練數據讓你的應用程序從中得出有用的推論。添加一些較低級別的功能（例如，POS標籤的一個bigram），其具有較少的可能性並因此更容易概括。

來源

2016-11-30 08:40:05 alexis

謝謝！如果我有足夠的時間（項目的截止日期並不那麼遙遠），我會嘗試實施類似POS標籤的事情。順便說一下，我的訓練數據僅包含600條消息（通常Kickstarter的評論非常冗長，但不包括推文，希望能夠彌補微不足道的訓練集大小）。在相關說明中，如果情緒分析是輔助工具以更深入地進行人工分析，並且不要問一個單獨的問題，那麼可以將這樣一個小數據集和68-70％的準確度（我有3個類別）評論？ – werblilben

是否有長消息，如果每條消息都作爲一個整體進行評估，則有600個數據點。所以請避免過度訓練，例如bigrams。可接受的準確度取決於您的目標，以及（對於項目）當前狀態。 – alexis

再次感謝:)在討論各種Kickstarter項目時，我使用SA來獲得動態的鳥瞰圖，所以我認爲〜68％的準確性應該足夠了，因爲一些關於電影評論SA的論文甚至提供了64％準確性作爲可敬的結果。 – werblilben

可以在同一個分類器中使用多個ngram嗎？

回答

相關問題