如何使用文本挖掘進行文檔分析？

我想分析給定的文檔，找出文檔是否包含我感興趣的領域知識的內容或與領域知識無關的內容。如何使用文本挖掘進行文檔分析？

例如，我有一個包含有關Android OS的數據的文檔，並且我有一個領域本體，它指定了關於android的全部知識。現在我必須找出文檔構成的有效內容的百分比領域本體論。

接近解決方案的一種方法是使用ANNIE（GATE）從文檔中提取命名實體（NE），並將它們與域本體的實例進行比較，並可找到有效內容的百分比。

2011-10-04 Beschi

你可以把它當作一個document classification問題：

還是一個document retrieval問題：

在這兩種情況下，你可能希望通過提取前N（如10）對unigram（不含站）和統計學顯著二元語法，以減少尺寸（條款）文檔中的號碼，並使用這些作爲或者您的袋單詞（樸素貝葉斯）或搜索查詢（文檔檢索）。

2011-10-04 12:16:46 Joel

回答