2016-02-15 57 views
0

我想用Nutch抓取網站,然後在Solr中索引結果。
我在solr schema.xml文件中。想象在這個文件中我有字段內容。
但是每個網站都有自己的模式,例如在一些我想在「內容字段(solr模式)」中設置「body」標籤「 和另一個網站我想要設置」內容「 solr模式)「。
我的意思是如果在抓取結果中發現body標記,我用它來存儲內容字段, 否則如果我找到body標記我使用這個值來存儲在模式文件中。
我該怎麼做?
基於在每個網站中找到的標籤,我可以根據nutch crael結果中的多個Tag值設置solr fill中的特殊字段嗎?index apache nutch result in solr

回答

0

使用Nutch索引內容併發布到Solr應該很簡單。但是,如果您想添加邏輯並且規則列表可能會增加,建議您使用內容處理引擎。

我已經看到了這個工具用於該特定目的,但它使用Heritrix的是履帶式,你可以創建Groovy腳本來決定如何處理您的內容:www.searchtechnologies.com/aspire

+0

感謝我發現阿帕奇蒂卡有用。我看到我可以寫我自己的txt解析器(在我的情況下自己的html解析器)。所以我有我自己的logic.and提取自己的div id從html pages.so我可以使用nutch然後tika然後索引在solr – sara