2012-01-16 23 views

回答

5

常見的選擇是監督文檔分類的袋子文字(或袋克朗克)功能,最好與tf-idf權重。

流行的算法包括樸素貝葉斯和(線性)SVM。

對於這種方法,您需要標註培訓數據,即註釋了相關主題的文檔。

參見例如Introduction to Information Retrieval,第13-15章。

相關問題