-1
對於我的小POC,我正在尋找任何開放源代碼庫,使用它我可以利用自然語言處理,最好在java中。基本上我打算有一個應用程序,它從用戶輸入人類語言的輸入,並通過對提供的文檔或網頁進行篩選來返回結果。任何線索將不勝感激。java中的自然語言處理庫
對於我的小POC,我正在尋找任何開放源代碼庫,使用它我可以利用自然語言處理,最好在java中。基本上我打算有一個應用程序,它從用戶輸入人類語言的輸入,並通過對提供的文檔或網頁進行篩選來返回結果。任何線索將不勝感激。java中的自然語言處理庫
「用戶輸入的人類語言」是文本格式?如果爲true,那麼您正在查找文本數據檢索器。 Apache Lucene真的很有用,一旦有大量的文檔,例子,內置的功能,非常容易使用和良好的社區協作。
很多來自人類自然語言的挑戰,例如詞幹和停用詞,都非常好且易於使用API。例如:
TokenStream tokenStream = new StandardTokenizer(
Version.LUCENE_36, new StringReader(input));
tokenStream = new StopFilter(Version.LUCENE_36, tokenStream, stopWordsSet);
tokenStream = new PorterStemFilter(tokenStream);
祝你好運!
謝謝!你能指出我在github上的一些例子,或者是在文本中使用自然語言來查詢數據的其他地方。 –
當然。你能提供一些查詢的例子嗎? – Doleron
是的簡單查詢將來自用戶,如「Oracle Webcenter的註冊TCP端口是什麼?」爲了回答這個問題,我需要瀏覽webcenter的發佈文檔或通過網絡進行搜索。 –