2016-08-13 124 views
0

我正在研究文本分類的特徵工程。我被困在選擇功能的一點上。大多數文獻表示將文本標記爲文本並將它們用作特徵(刪除停用詞,標點符號),但是卻錯過了像(肺癌)或短語這樣的多詞詞。所以問題是如何決定ngram順序並把它們當作特徵?特徵工程的Ngram順序選擇

回答

0

相關的2克(在這種情況下,肺癌)將按頻率出現。
想象一下下面的文字:

我知道誰得了肺癌:肺癌是可怕的疾病。

2-gram vs Frequency

如果你讓你與肺癌首先結束的2克的列表;和其他組合('有肺';'討厭肺')第二。
這是因爲某些詞組代表着某些東西 - 因此被重複調用 - 而另一些詞組只是連接符(「有」或「討厭」),形成2克的「根據情況」。關鍵是要按頻率過濾。

如果您在生成n-gram時遇到問題,我覺得您可能會使用錯誤的庫/工具集。