2013-02-08 65 views
0

如何維護Solr給出的 結果中HTML文檔的原始格式?Can Solr能保留HTML文檔的格式嗎?

我試圖在我的公司網站之一提供搜索功能,它有數百萬的文檔,並且都沒有類似的格式,所以很難單獨格式化每個文檔。

我在apache站點使用Solr 4.1 nightly builds,這個站點內置了對solr-cell和tika的支持。即我不需要單獨配置它們。

solr-cell或tika是否保留了這些格式?

如果不保留其格式,然後我需要每個文件從物理文件位置使用資源名稱的Solr領域獲取和運用的亮點和其他Solr的現成的功能,但這個過程太繁瑣。

編輯:如果我必須使用Jayendra在答案中建議的「HTMLStripCharFilterFactory」,我可以使用什麼作爲請求處理程序?在這種情況下,我也可以提取元數據標籤嗎?

任何人都可以指導我這個!

謝謝你的支持。

回答

2

帶Tika的Solr Cell不保留原始文檔的格式。
您只能從通過Tika輸入到Solr的文檔中提取文本。

否則,您必須將html文檔作爲正常的Solr字段進行填充,並應用HTMLStripCharFilterFactory過濾器來維護這兩個副本。

當存儲= true時,Solr將使用HTML字段維護原始文檔。
但是,對於搜索(索引=真),搜索將只發生在內容而不是html元素上。

+0

謝謝你的回覆。當你看到你在很多solr標籤中回答的時候,我期待着你的回答。請問您能否詳細解釋一下「_document作爲普通字段_」。它是否像我必須以文本格式將HTML文檔提供給solr? –

+0

yup應該將html文檔的內容作爲一個普通的solr字段來提供,這個字段可以通過html過濾器進行分析。 – Jayendra

+0

我希望你明白我的問題,我想顯示原始文件,其中搜索與亮點和其他豐富的搜索。 如果我提供html文檔作爲文本,所以搜索查詢將在HTML標籤中搜索也是我不想要的。你可以指導我進一步研究這個我完全陌生的solr。 –