2016-08-10 48 views
-3

我有具有客戶信息和最後一類的數據集示例中的一個是以下各項該機器學習技術應該被用於郵件分類

key message             final category 
1  i want customer care no i want to talk with ur team  other 
2  hi I 9986443603cjhh had qkuiv1uhqllljqvocally q illgi vq noclass 
3  hai points not coming          checking 

喜歡。該數據集是至少20個最終類別類型的大文件。請建議適當的方法,使用將作爲其最終類別的消息對數據進行分類。我正在考慮使用消息詞製作feature_vector,並將它饋送到貝葉斯,它會很棒嗎?或者我必須使用其他技術。

非常感謝。

回答

0

你可以考慮用詞嵌入。 你可以從here下載embbedings(在這個鏈接-Glove,你可以選擇使用word2vec)。

這個想法是,相似的單詞將有相似的向量。 將消息中的每個單詞轉換爲一個向量後,您可以對所有向量進行平均(或者,使用TF-IDF獲得更好的結果),以獲取消息的向量表示。 當然,像qkuiv1uhqllljqvocally這樣的詞彙不會出現在詞彙表中。 要檢查結果,可以將所有向量聚類(使用20均值聚類,如果有20個類),以查看類似消息聚集到同一組。