哪個lucene分析器可以用來正確處理日文文本?它應該能夠處理漢字,平假名,片假名,羅馬字以及它們的任何組合。什麼lucene分析器可以用來處理日文文本?
8
A
回答
3
我發現lucene-gosen雖然做了搜索我自己的目的:
他們的例子看起來相當不錯,但我想這是那種需要大量的測試事情。我也擔心他們的向後兼容性政策(或者說,完全缺乏一種政策)。
4
您應該查看位於Lucene的contrib區域的CJK軟件包。有一個專門用於處理中文,日文和韓文的分析器和標記器。
+0
CJK分析儀似乎是一種無聊的搜索方式,而且從以前的經驗來看,似乎沒有提供非常相關的搜索結果。 有什麼我需要專門做CJK分析儀的工作就像修改一些重量或東西? 謝謝 – 2009-12-24 05:40:59
+0
我從來沒有使用過CJK分析儀,所以不能說。您可以嘗試在Lucene郵件列表(http://lucene.apache.org/java/docs/mailinglists.html#Java用戶列表)上尋求更具體的幫助 - 有些人對Lucene非常有經驗。 – adrianbanks 2009-12-24 09:52:06
相關問題
- 1. Lucene中文分析器.NET
- 2. 可以使用什麼Java庫來處理WSDL文件?
- 3. 文本分析與自然語言處理有什麼不同?
- 4. 什麼是用於文本和源代碼的好Lucene分析器?
- 5. 爲什麼Lucene QueryParser需要分析器
- 6. 可以處理URL參數的Apache日誌分析器?
- 7. shell腳本來分析日誌文件
- 8. Java處理器 - 可以選擇什麼?
- 9. 批處理腳本,可以用日期範圍更新文件
- 10. 處理Lucene查詢解析器錯誤
- 11. 我可以使用什麼「大數據」算法來分析文本文件之間的相似度?
- 12. 處理excel文件除了VBA還可以使用什麼?
- 13. 使用ANTLR來分析日誌文件
- 14. Perl腳本來處理文本文件
- 15. 使用批處理腳本逐行解析文本文件(批處理文件)
- 16. 批處理腳本來處理文件
- 17. 從Lucene索引文件中計算分析器,版本等?
- 18. 解析文本文件,處理新行?
- 19. 什麼算法可以用來區分圖像文件?
- 20. 什麼是合適的lucene分析器使用?
- 21. 單行文本日誌文件分析
- 22. 我可以使用什麼工具來分析Asp.Net中的ViewState?
- 23. 我可以使用什麼來分析我的50+網站?
- 24. 我可以使用什麼來生成本地XML文件?
- 25. 有什麼工具可用於分析瀏覽器處理頁面的時間
- 26. Lucene/Solr:什麼請求處理程序用於中文或日文查詢字符串?
- 27. 通過查詢未分析文本字段刪除Lucene文檔
- 28. 如何在斯坦福分析器中使用NNDEP分析器來處理中文數據
- 29. 使用解析器組合器來整理文本行
- 30. 有什麼更好?切換可見性或處理文本
我們沒有使用lucene-gosen,但我們確實使用了gosen。所以我接受了這個答案(因爲它足夠接近並且項目看起來很有趣)。 CJK做一個非常幼稚的搜索,它只是匹配字符而不像gosen(它使用字典進行正確的解析)。 – 2012-01-03 07:58:27