我使用solr 6.6.0索引了一些html文檔。內容字段中有很多鏈接文本,這會稀釋搜索結果。那麼,如何刪除Solr中的「內容」字段索引/存儲中的標籤內容?有沒有關於updateRequestProcessorChain的方法?任何人都知道解決方案?如何在索引/存儲在Solr中刪除<a>內容字段中的標記內容
0
A
回答
0
我之前和之後文本一個隱藏的div添加解決的問題:
<updateRequestProcessorChain name="myregex">
<processor class="solr.RegexReplaceProcessorFactory">
<str name="fieldName">mytextfield</str>
<str name="pattern">([1]{1}%{2}[A]{1})(.*)([1]{1}%{2}[E]{1})</str>
<str name="replacement"> </str>
<bool name="literalReplacement">true</bool>
</processor>
</updateRequestProcessorChain>
它適用於我。
0
使用HTMLStripCharFilterFactory
作爲您的字段定義在索引期間的過濾器。
<div style="display:hidden">1%%A</div>
TEXT TEXT TEXT
<div style="display:hidden">1%%E</div>
,並加入到solrconfig.xml中:
此CHAR過濾帶HTML從輸入流
<analyzer>
<charFilter class="solr.HTMLStripCharFilterFactory"/>
<tokenizer ...>
[...]
</analyzer>
相關問題
- 1. 如何刪除SOLR索引內容中的腳本和樣式[內容字段],同時通過URL索引?
- 2. Solr的存儲和索引字段如何存儲在內部(在Lucene中)
- 3. 刪除HTML標記+內容
- 4. 如何避免將原始內容存儲在Solr中,僅索引版本?
- 5. 消毒內容:從亞馬遜的內容中刪除標記
- 6. 如何使用Solr索引xml標籤中的xml內容
- 7. Nutch + Solr; SolrDeleteDuplicates刪除除索引之外的所有內容
- 8. 在Vim中,如何刪除雙引號內的所有內容?
- 9. Solr索引文件刪除html標籤和垃圾內容形式索引
- 10. 如何在Xcode 9的標記字上刪除插入雙引號的內容
- 11. 在JTable中刪除內容
- 12. 如何將文檔內容存儲在Solr 6.4中?
- 13. Solr索引後是否存儲文檔的原始內容?
- 14. 在類中存儲內存內容 - C++
- 15. 如何在引用字段的內容搜索在嗎啡
- 16. 從一條記錄中刪除blob字段的內容
- 17. 索引/搜索PDF內容使用Solr
- 18. 刪除內容<th>
- 19. 在Linux控制檯中從XML中刪除標記內容
- 20. 如何使用BeautifulSoup刪除嵌套標記中的內容?
- 21. 如何刪除HTML標記的內容在Emacs
- 22. 如何在畫布內顯示<img>標記的內容?
- 23. 變「內容」字段存儲,記號化,編入索引的亮點
- 24. 從mysql內容中刪除內容
- 25. Powershell刪除字符串內容中的HTML標記
- 26. Solr沒有索引文檔的內容
- 27. 在IE7中刪除onunload/onbeforeunload內存中的iframe內容
- 28. 存儲視頻和索引內容
- 29. 刪除輸入字段jQuery的內容
- 30. 如何判斷solr索引中的內容?
HTMLStripCharFilterFactory僅剝離標籤,而不剝離內容。但我需要刪除所有導航鏈接文本。 – dan