2016-09-22 149 views
-1

對於我的小POC,我正在尋找任何開放源代碼庫,使用它我可以利用自然語言處理,最好在java中。基本上我打算有一個應用程序,它從用戶輸入人類語言的輸入,並通過對提供的文檔或網頁進行篩選來返回結果。任何線索將不勝感激。java中的自然語言處理庫

回答

0

「用戶輸入的人類語言」是文本格式?如果爲true,那麼您正在查找文本數據檢索器。 Apache Lucene真的很有用,一旦有大量的文檔,例子,內置的功能,非常容易使用和良好的社區協作。

很多來自人類自然語言的挑戰,例如詞幹和停用詞,都非常好且易於使用API​​。例如:

TokenStream tokenStream = new StandardTokenizer(
       Version.LUCENE_36, new StringReader(input)); 
     tokenStream = new StopFilter(Version.LUCENE_36, tokenStream, stopWordsSet); 
     tokenStream = new PorterStemFilter(tokenStream); 

祝你好運!

+0

謝謝!你能指出我在github上的一些例子,或者是在文本中使用自然語言來查詢數據的其他地方。 –

+0

當然。你能提供一些查詢的例子嗎? – Doleron

+0

是的簡單查詢將來自用戶,如「Oracle Webcenter的註冊TCP端口是什麼?」爲了回答這個問題,我需要瀏覽webcenter的發佈文檔或通過網絡進行搜索。 –