2013-03-04 118 views
0

我目前使用Solr-Cell來獲取多個html頁面的內容併爲它們編制索引。問題是我在所有頁面上顯示的標題中都有一個菜單。此菜單及其所有項目均顯示在搜索結果中。我不希望這被索引。Solr:排除某些HTML標記或僅包含索引內的某些標記

你會怎麼做到這一點?

是否可以排除某些DIV(帶有類名或ID)?

回答

0

實際上,如果你做了測試,你會看到Tika在Solr中使用的方式,它剝去了大部分的HTML,包括divs,class和id屬性。

因此,您可能無法獲得所需的粒度,並可能需要使用RegexReplaceProcessorFactory UpdateRequestProcessor之類的東西來通過匹配純文本來刪除不需要的部分。

如果您直接從代碼中調用Tika,則可以對其進行更多的控制,並且可以將IdentityHtmlMapper設置爲不執行HTML篩選。

+0

另一個需要注意的問題是我是SOLR的初學者。我將研究RegexReplaceProcessorFactory。我不確定此時將TIKA從SOLR中分離出來。我的代碼完成了95%,我唯一要做的就是從結果中刪除菜單項。否則,我會投入時間。 – mangesh 2013-03-08 17:09:58