0
我正在研究文本分類的特徵工程。我被困在選擇功能的一點上。大多數文獻表示將文本標記爲文本並將它們用作特徵(刪除停用詞,標點符號),但是卻錯過了像(肺癌)或短語這樣的多詞詞。所以問題是如何決定ngram順序並把它們當作特徵?特徵工程的Ngram順序選擇
我正在研究文本分類的特徵工程。我被困在選擇功能的一點上。大多數文獻表示將文本標記爲文本並將它們用作特徵(刪除停用詞,標點符號),但是卻錯過了像(肺癌)或短語這樣的多詞詞。所以問題是如何決定ngram順序並把它們當作特徵?特徵工程的Ngram順序選擇