0
我想分析給定的文檔,找出文檔是否包含我感興趣的領域知識的內容或與領域知識無關的內容。如何使用文本挖掘進行文檔分析?
例如,我有一個包含有關Android OS的數據的文檔,並且我有一個領域本體,它指定了關於android的全部知識。現在我必須找出文檔構成的有效內容的百分比領域本體論。
接近解決方案的一種方法是使用ANNIE(GATE)從文檔中提取命名實體(NE),並將它們與域本體的實例進行比較,並可找到有效內容的百分比。
- 你可以推薦我可以使用的其他更好的技術嗎?
- 是否還有其他開源API可用?我試過,Lingpipe但我不能在商業產品中使用它。
- 是否有任何開源應用程序可用於此類?我搜查了很多,但我找不到任何應用程序。