2013-10-14 21 views
-1

我知道如何通過Weka對文本進行分類,我可以在Weka GUI中插入文本文件夾,並嘗試使用不同的算法,如果其中一個文本對某個主題是正面/負面,它可以顯示給我。如何確定給定文檔(文本)的主題?

現在我需要一些不同的東西,我想構建一個應用程序,當用戶插入單個文本文件時,告訴文本主題。

Weka有沒有可能做到這一點?如果有人會給我一個提示,我會很高興。

回答

1

你是什麼意思的「主題」?這是一個非常廣泛的概念,但在大多數情況下,它只是像「科學」,「運動」等可能的文本類別的有限集合,您可以將其稱爲C,並將其視爲監督分類問題,就像您將「正面/負面」分類。沒有什麼特別的,可以分爲多個類別。但是你仍然需要爲每個類別設置一套訓練集。總結一下 - 您可以按照與二進制分類完全相同的方式使用WEKA,只需使用更多標籤進行分類(如果您的分類是互斥的,也就是說,沒有任何文本是關於「科學」和「運動」的「)或者創建|C|二元分類器,如果您的文本可以是任何類別子集的一部分(這更合理,因爲文檔通常位於某些主題之間),並簡單回答您的相應分類器回答的一組類別「是」(肯定)。

如果你想以無監督的方式做到這一點(沒有訓練集),那麼這將是一個複雜得多的任務,需要通過某種文本摘要/主題建模技術來實際建模主題,據我所知,在WEKA中實施。事實上,就我的最佳知識而言,這種方法還不夠成熟,無法談論任何「好」解決方案 - 這些都是相當多研究領域,有許多方法和不同結果。

2

您是否需要使用Weka?如果不是的話,還有其他好的文本分類系統可以用於主題分類的開放/自由訪問。我建議嘗試Open Calais可以下載或使用Web服務。