2012-04-04 33 views
0

我爬使用Nutch成功的一個網站,我試圖恢復使用的Solr作爲索引/搜索高亮顯示的摘要。所以,如果我查詢「海洋」,那麼我想從網頁(不是標題或URL)包含查詢詞的只是文本返回一個20-30字的摘要。返回網頁摘要使用Solr

我複製了Nutch的schema.xml中爲我的Solr schema.xml中。

所以我有兩個問題: 1. Nutch schema.xml中的「content」字段是網頁正文元素的字段嗎? 2.如果沒有存儲該字段,有沒有辦法讓Solr的檢索在搜索時該字段,以便它可以突出?

回答

1
  1. 我很久沒用過Nutch了,但我認爲假設「內容」是你想突出顯示的字段是非常安全的。

  2. 您需要存儲該字段才能使用突出顯示,並且如果要使用FastVectorHighlighting,則需要爲該字段啓用以下屬性:termVectors,termPositions和termOffsets。

如果您使用FVH,也可以在Solr 3.5及更高版本中使用boundaryScanner。