1
我正在使用solr 6.2.1,並且我想省略solr上特定字段中包含一些黑名單字(辱罵性字)的所有文檔。我在schema.xml-Solr黑名單字配置被索引和存儲
<!-- A text field that only splits on whitespace for exact matching of words -->
<fieldType name="text" class="solr.TextField" positionIncrementGap="100" multiValued="true">
<analyzer type="index">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
</analyzer>
<analyzer type="query">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
</analyzer>
</fieldType>
以下文本字段配置誰能幫我忽略黑名單詞進行索引和存儲在Solr的。
夥計們,這可能嗎?如果是,請幫我修改配置。
你不想排除單詞,你想完全排除文檔?你如何索引你的文件? – MatsLindh
如果你想放棄整個文件在辱罵的話(是嗎?),然後我會去[更新請求處理器](https://lucene.apache.org/solr/guide/6_6/update-request-processors的.html)。 – cheffe
有一個在這裏讀[solr中的褻瀆filteration](https://stackoverflow.com/questions/38435713/profanity-filteration-in-solr) – cheffe