0
我爬使用Nutch成功的一個網站,我試圖恢復使用的Solr作爲索引/搜索高亮顯示的摘要。所以,如果我查詢「海洋」,那麼我想從網頁(不是標題或URL)包含查詢詞的只是文本返回一個20-30字的摘要。返回網頁摘要使用Solr
我複製了Nutch的schema.xml中爲我的Solr schema.xml中。
所以我有兩個問題: 1. Nutch schema.xml中的「content」字段是網頁正文元素的字段嗎? 2.如果沒有存儲該字段,有沒有辦法讓Solr的檢索在搜索時該字段,以便它可以突出?