Can Solr能保留HTML文檔的格式嗎？

如何維護Solr給出的結果中HTML文檔的原始格式？Can Solr能保留HTML文檔的格式嗎？

我試圖在我的公司網站之一提供搜索功能，它有數百萬的文檔，並且都沒有類似的格式，所以很難單獨格式化每個文檔。

我在apache站點使用Solr 4.1 nightly builds，這個站點內置了對solr-cell和tika的支持。即我不需要單獨配置它們。

solr-cell或tika是否保留了這些格式？

如果不保留其格式，然後我需要每個文件從物理文件位置使用資源名稱的Solr領域獲取和運用的亮點和其他Solr的現成的功能，但這個過程太繁瑣。

編輯：如果我必須使用Jayendra在答案中建議的「HTMLStripCharFilterFactory」，我可以使用什麼作爲請求處理程序？在這種情況下，我也可以提取元數據標籤嗎？

任何人都可以指導我這個！

謝謝你的支持。

2013-02-08 Div Tiwari

帶Tika的Solr Cell不保留原始文檔的格式。
您只能從通過Tika輸入到Solr的文檔中提取文本。

否則，您必須將html文檔作爲正常的Solr字段進行填充，並應用HTMLStripCharFilterFactory過濾器來維護這兩個副本。

當存儲= true時，Solr將使用HTML字段維護原始文檔。
但是，對於搜索（索引=真），搜索將只發生在內容而不是html元素上。

2013-02-08 10:56:13 Jayendra

謝謝你的回覆。當你看到你在很多solr標籤中回答的時候，我期待着你的回答。請問您能否詳細解釋一下「_document作爲普通字段_」。它是否像我必須以文本格式將HTML文檔提供給solr？ –

yup應該將html文檔的內容作爲一個普通的solr字段來提供，這個字段可以通過html過濾器進行分析。 – Jayendra

我希望你明白我的問題，我想顯示原始文件，其中搜索與亮點和其他豐富的搜索。如果我提供html文檔作爲文本，所以搜索查詢將在HTML標籤中搜索也是我不想要的。你可以指導我進一步研究這個我完全陌生的solr。 –

回答