2011-10-04 84 views
0

我想分析給定的文檔,找出文檔是否包含我感興趣的領域知識的內容或與領域知識無關的內容。如何使用文本挖掘進行文檔分析?

例如,我有一個包含有關Android OS的數據的文檔,並且我有一個領域本體,它指定了關於android的全部知識。現在我必須找出文檔構成的有效內容的百分比領域本體論。

接近解決方案的一種方法是使用ANNIE(GATE)從文檔中提取命名實體(NE),並將它們與域本體的實例進行比較,並可找到有效內容的百分比。

  1. 你可以推薦我可以使用的其他更好的技術嗎?
  2. 是否還有其他開源API可用?我試過,Lingpipe但我不能在商業產品中使用它。
  3. 是否有任何開源應用程序可用於此類?我搜查了很多,但我找不到任何應用程序。

回答

1

你可以把它當作一個document classification問題:

還是一個document retrieval問題:

  • 實際上你是比較文檔和本體類之間的co-sine similarity。你可以使用Lucene作爲你的本體文檔存儲引擎的基礎。

在這兩種情況下,你可能希望通過提取前N(如10)對unigram(不含站)和統計學顯著二元語法,以減少尺寸(條款)文檔中的號碼,並使用這些作爲或者您的袋單詞(樸素貝葉斯)或搜索查詢(文檔檢索)。