2011-06-01 37 views
2

我正在索引Solr的文檔,這些文檔是從網絡上抓取的。這些文檔包含HTML實體(如££)。大多數文件都包含中歐文字。有沒有任何charfilter這項任務?我知道solr.MappingCharFilterFactory,但使用這將意味着,我必須自己定義映射。我會對社區維護的共享解決方案感到高興。謝謝你的幫助!Solr索引HTML實體

+0

fifigyuri,你問:「這個任務有沒有charfilter?」讓我明白這一點:你想在索引文檔之前將重音字符轉換爲非重音字符(就像將「állat」轉換爲「allat」)?你不想組裝和維護char映射的txt文件? – bpgergo 2011-06-01 16:07:46

+0

@bpgergo,我已經解決了áóüőťďľšč...字符,因爲這些MappingCharFilter沒問題。我想爲HTMLentities進行映射。這意味着ü或ü將被翻譯爲ü。但是,最簡單的可能只是擴展我的映射。想知道,是否沒有這些案例已經解決了Solr網站特定的文本/字符。如果你知道任何這樣的解決方案,現成,請分享。謝謝! – fifigyuri 2011-06-02 08:36:29

+0

我明白了。不幸的是,我不知道這種現成的映射。 – bpgergo 2011-06-03 12:04:18

回答

1

solr.HTMLStripCharFilterFactory,它轉換HTML實體,但它也剝去HTML標籤。