我想索引一些中文文檔與索爾,但它看起來像索爾不索引一些分詞。爲什麼索爾沒有索引一些分詞
我使用的分析儀是IK分析儀http://code.google.com/p/ik-analyzer/。
的字段要被索引:
<field name="hospital_alias_splitted" type="cn_ik" indexed="true" stored="true" multiValued="true" omitNorms="false"/>
cn_ik定義:
<fieldType name="cn_ik" class="solr.TextField" positionIncrementGap="100">
<analyzer>
<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" useSmart ="false"/>
</analyzer>
例如,將要編制索引的單詞是 「AB」(沒有引號)。在使用中文分析器分詞後,我得到了3個令牌,分別是「AB」,「A」和「B」。
正如我們所看到的,第一個標記「AB」包含以下兩個標記。
將這些標記送到Solr後,它看起來像索爾唯一的索引「AB」,「A」和「B」被忽略。因爲當我搜索「A」或搜索「B」時沒有得到任何結果。
我猜索拉索引「AB」時,它已經到達索引詞的末尾,所以「A」和「B」被忽略。
使用盧克和分析請求處理程序不會顯示更多提示。 我不確定這是Solr的缺陷還是功能。
有何評論或建議?
謝謝:)
你能否從架構添加字段規範呢? – Fuxi
將架構添加到原文 – emlaggr
看起來這是IK分段器的一個bug,已經在新的IK代碼中修復。如果分析器和查詢解析器使用不同的segementation模式(智能模式和最佳粒度模式),則會再現此錯誤。 – emlaggr