Solr索引HTML實體

我正在索引Solr的文檔，這些文檔是從網絡上抓取的。這些文檔包含HTML實體（如£或£）。大多數文件都包含中歐文字。有沒有任何charfilter這項任務？我知道solr.MappingCharFilterFactory，但使用這將意味着，我必須自己定義映射。我會對社區維護的共享解決方案感到高興。謝謝你的幫助！Solr索引HTML實體

來源

2011-06-01 fifigyuri

fifigyuri，你問：「這個任務有沒有charfilter？」讓我明白這一點：你想在索引文檔之前將重音字符轉換爲非重音字符（就像將「állat」轉換爲「allat」）？你不想組裝和維護char映射的txt文件？ – bpgergo 2011-06-01 16:07:46

@bpgergo，我已經解決了áóüőťďľšč...字符，因爲這些MappingCharFilter沒問題。我想爲HTMLentities進行映射。這意味着ü或ü將被翻譯爲ü。但是，最簡單的可能只是擴展我的映射。想知道，是否沒有這些案例已經解決了Solr網站特定的文本/字符。如果你知道任何這樣的解決方案，現成，請分享。謝謝！ – fifigyuri 2011-06-02 08:36:29

我明白了。不幸的是，我不知道這種現成的映射。 – bpgergo 2011-06-03 12:04:18

有solr.HTMLStripCharFilterFactory，它轉換HTML實體，但它也剝去HTML標籤。

來源

2013-09-05 11:24:30

Solr索引HTML實體

回答

相關問題