將文本文件拆分爲兩組 - 無監督學習

想象一下，您是圖書管理員，並且您已將一堆文本文件（約100）與一般歧義關鍵字歸類在一起。將文本文件拆分爲兩組 - 無監督學習

每個文本文件實際上是keyword_meaning1 的主題或keyword_meaning2的主題。

您將使用哪種無監督學習方法，將文本文件分成兩組？

根據多個文本文件可以實現正確分類的精度（百分比）是多少？

或者可以以某種方式顯示在一個組中，有需要圖書管理員檢查某些文件，因爲他們可能會被錯誤地分類？

2017-05-18 xralf

最簡單的出發點是使用樸素貝葉斯分類器。很難推測預期的精確度。你必須自己測試它。只需獲得一個電子郵件垃圾郵件檢測程序並嘗試一下。例如，SpamBayes（http://spambayes.sourceforge.net/）是一個相當不錯的起點，並且很容易被破解。 SpamBayes有一個很好的功能，當兩個類之間沒有明確的分離時，它會將消息標記爲「不確定」。

編輯：當你真的想要無監督聚類方法，那麼可能像Carrot2（http://project.carrot2.org/）更合適。

來源

2017-05-18 18:58:18 JooMing

是不是貝葉斯方法監督？在訓練階段？或者這是一些修改？ – xralf

是的，它有監督。我從問題陳述中注意到你有類標籤可用，所以樸素貝葉斯似乎是最直接的方法。 – JooMing

感謝carrot2。 – xralf

將文本文件拆分爲兩組 - 無監督學習

回答

相關問題