2011-04-08 146 views
1

我正在用nutch爬取我們的大型網站,然後使用solr進行索引,結果非常好。但是,整個網站有幾個菜單結構可以索引和破壞查詢結果。使用索引對索引HTML進行索引

這些菜單中的每一個都明確定義在DIV中,所以<div id="RHBOX"> ... </div> or <div id="calendar"> ...</div>和其他幾個。

我需要在某些時候刪除這些DIVS中的內容。

我猜測正確的地方是在solr索引期間,但無法解決問題。

一個模式看起來像(<div id="calendar">).*?(<\/div>)但我不能在<tokenizer class="solr.PatternTokenizerFactory" pattern="(<div id="calendar">).*?(<\/div>)" />工作,我真的不知道把它放在schema.xml中。

當我把模式放在schema.xml中不解析。

我加入此行,編輯堅持

回答

-1

你看着Solr的內現有的HTML不同的HTML斷詞?

http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters#solr.HTMLStripWhitespaceTokenizerFactory

,他們會幫助你解決這個問題。你不應該索引html標籤本身。但是,如果您需要唯一標識某些標籤,則需要創建單個字段並將這些特殊標籤的內容存儲在這些字段中。

+0

無論如何,這並不回答問題。 – Henry 2011-04-11 15:25:26

+0

@亨利 - 請說出你的問題。很難準確地分辨出你在問什麼,並且你會得到更清晰的答覆。 – jro 2011-04-15 19:09:57

+0

我想他只是想知道如何索引html源代碼。我也會對這個答案感興趣。 – nottinhill 2012-05-17 03:19:17