我抓取我們的大型網站(S)使用Nutch,然後使用Solr,結果相當不錯的索引中。但是,整個網站有幾個菜單結構可以索引和破壞查詢結果。刪除從HTML菜單中的爬行索引或者使用Nutch和Solr
這些菜單中的每一個都明確定義在DIV中,所以<div id="RHBOX"> ... </div> or <div id="calendar"> ...</div>
和其他幾個。
我需要,在某些時候,刪除這些div內容。
我猜測正確的地方是在solr索引期間,但無法解決問題。
一個模式看起來像(<div id="calendar">).*?(<\/div>)
但我不能在<tokenizer class="solr.PatternTokenizerFactory" pattern="(<div id="calendar">).*?(<\/div>)" />
工作,我真的不知道把它放在schema.xml中。
當我把schema.xml中這種模式不解析。
這是不正確。 Solr分析nutch已經抓取的原始html。 Nutch也將其解析爲自己的索引。 – hayres 2011-04-12 07:04:42
OK thx,我沒有意識到SOLR是解析原始html。 – millebii 2011-04-12 19:36:25
這並非完全正確。 Solr分析nutch創建的Lucene Document對象。部分數據是原始HTML,但還有其他屬性,如nutch向Solr提供的title和contentType。 Solr不解析它。 – mlathe 2011-09-26 17:08:19