2017-05-18 34 views
0

想象一下,您是圖書管理員,並且您 已將一堆文本文件(約100) 與一般歧義關鍵字歸類在一起。將文本文件拆分爲兩組 - 無監督學習

每個文本文件實際上是keyword_meaning1 的主題或keyword_meaning2的主題。

您將使用哪種無監督學習方法, 將文本文件分成兩組?

根據多個文本文件可以實現正確分類 的精度(百分比)是多少?

或者可以以某種方式顯示在一個組中,有 需要圖書管理員檢查某些文件,因爲 他們可能會被錯誤地分類?

回答

1

最簡單的出發點是使用樸素貝葉斯分類器。很難推測預期的精確度。你必須自己測試它。只需獲得一個電子郵件垃圾郵件檢測程序並嘗試一下。例如,SpamBayes(http://spambayes.sourceforge.net/)是一個相當不錯的起點,並且很容易被破解。 SpamBayes有一個很好的功能,當兩個類之間沒有明確的分離時,它會將消息標記爲「不確定」。

編輯:當你真的想要無監督聚類方法,那麼可能像Carrot2(http://project.carrot2.org/)更合適。

+0

是不是貝葉斯方法監督?在訓練階段?或者這是一些修改? – xralf

+0

是的,它有監督。我從問題陳述中注意到你有類標籤可用,所以樸素貝葉斯似乎是最直接的方法。 – JooMing

+0

感謝carrot2。 – xralf