如何維護Solr給出的 結果中HTML文檔的原始格式?Can Solr能保留HTML文檔的格式嗎?
我試圖在我的公司網站之一提供搜索功能,它有數百萬的文檔,並且都沒有類似的格式,所以很難單獨格式化每個文檔。
我在apache站點使用Solr 4.1 nightly builds,這個站點內置了對solr-cell和tika的支持。即我不需要單獨配置它們。
solr-cell或tika是否保留了這些格式?
如果不保留其格式,然後我需要每個文件從物理文件位置使用資源名稱的Solr領域獲取和運用的亮點和其他Solr的現成的功能,但這個過程太繁瑣。
編輯:如果我必須使用Jayendra在答案中建議的「HTMLStripCharFilterFactory」,我可以使用什麼作爲請求處理程序?在這種情況下,我也可以提取元數據標籤嗎?
任何人都可以指導我這個!
謝謝你的支持。
謝謝你的回覆。當你看到你在很多solr標籤中回答的時候,我期待着你的回答。請問您能否詳細解釋一下「_document作爲普通字段_」。它是否像我必須以文本格式將HTML文檔提供給solr? –
yup應該將html文檔的內容作爲一個普通的solr字段來提供,這個字段可以通過html過濾器進行分析。 – Jayendra
我希望你明白我的問題,我想顯示原始文件,其中搜索與亮點和其他豐富的搜索。 如果我提供html文檔作爲文本,所以搜索查詢將在HTML標籤中搜索也是我不想要的。你可以指導我進一步研究這個我完全陌生的solr。 –