2012-04-17 100 views
1

我正在使用OpenSearchServer(社區版)v1.2.4-rc3-stable-rev 1474- build 802.我爬行C#和C++編程網站。現在,當我搜索C#或C++時,軟件會去除#,+等特殊字符。結果並不準確哪個軟件返回。我如何在OpenSearchServer/Lucene中處理像(#)這樣的特殊字符?任何人都可以建議我的想法?在此先感謝如何在OpenSearchServer/Lucene中處理特殊字符(如#)?

回答

1

您需要更改您的索引策略以使用自定義或半自定義標記器,該標記器可保留表示C#和C++代碼術語所需的特殊字符。您將在索引期間和搜索期間使用這個標記器。

副手,我想看看org.apache.lucene.analysis.standardorg.apache.lucene.wikipedia.analysis得到一些想法如何構造標記生成器(使用一個標記(詞法分析器)生成器(如JFlex等)可能被調用而不是手動編碼令牌生成器)。