1

我有大約6000文本的語料庫與社交網絡(FB,Twitter等)的意見,從一般和地方新聞和雜誌等新聞內容。我已經閱讀了這300篇文章中的前300篇,並將這300篇文章的內容標記爲客戶投訴或非投訴。如何提取投訴從文本的功能,才能從非投訴分類投訴案文

代替文字包的原始的方法,我想知道我怎麼能準確地提取這些投訴與非投訴文本的特點是什麼?我的目標是使用SVM或Liblinear等其他分類算法/庫來最準確地將這些文本的其餘部分分類爲對現有訓練集的300個文本進行投訴或不投訴。這個程序是否類似於情緒分析?如果不是,我應該從哪裏開始?

回答

0

我想你會發現,袋的詞也不是那麼天真。它實際上是將數據表示爲SVM的完美有效方式。如果這沒有給你足夠的準確度,你可以在你的特徵向量中包含bigrams,即單詞對,而不僅僅是unigrams。