1
我正在使用eZ Find,eZ Publish的solr前端,索引一些包含日文文本和html標籤的字段。索引CJK和剝離HTML標籤
我修改了文本分析如下schema.xml中:
<fieldType name="text" class="solr.TextField">
<analyzer>
<charFilter class="solr.HTMLStripCharFilterFactory"/>
<tokenizer class="solr.CJKTokenizerFactory"/>
</analyzer>
</fieldType>
舉例來說,如果我的自定義字段包含:
<h1>ほげほげ<h1>
<p>すもももももももものうち</p>
我在Solr管理搜索すもも
,HTML標籤在結果中:
<str name="attr_free_1_t"><h1>ほげほげ<h1><p>すもももももももものうち</p></str>
我怎樣才能防止來自HTML標籤m索引?
在此先感謝。
謝謝!事實上,存儲的字符串和索引字符串是不同的。因爲我只關心索引字符串,所以我的當前設置將會很好,但是正則表達式的好處是。 – Eric 2013-03-08 14:35:35