0
我使用的是使用cygwin和solr 4.8.0的nutch 1.9。我可以使用下面的代碼將抓取的數據編入索引。如何從nutch索引時將一些額外的字段添加到solr中?
斌/抓取網址/ crawlresult/HTTP://本地主機:8983/Solr的/ 1
但我想添加一些額外的領域,而如的indexed_by,crawled_by,crawl_name等
索引我需要幫助。
在此先感謝。
我使用的是使用cygwin和solr 4.8.0的nutch 1.9。我可以使用下面的代碼將抓取的數據編入索引。如何從nutch索引時將一些額外的字段添加到solr中?
斌/抓取網址/ crawlresult/HTTP://本地主機:8983/Solr的/ 1
但我想添加一些額外的領域,而如的indexed_by,crawled_by,crawl_name等
索引我需要幫助。
在此先感謝。
如果附加字段的值沒有改變,那麼你可以使用Nutch的index-static插件。它允許您添加一些字段及其內容。你首先需要在nutch-site.xml中啓用它。然後,添加字段列表如下圖所示:
<property>
<name>index.static</name>
<value>indexed_by:solr,crawled_by:nutch-1.8,crawl_name:nutch</value>
<description>
Used by plugin index-static to adds fields with static data at indexing time.
You can specify a comma-separated list of fieldname:fieldcontent per Nutch job.
Each fieldcontent can have multiple values separated by space, e.g.,
field1:value1.1 value1.2 value1.3,field2:value2.1 value2.2 ...
It can be useful when collections can't be created by URL patterns,
like in subcollection, but on a job-basis.
</description>
</property>
如果這些字段的值不是靜態的,獨立的索引的文件,那麼你將需要編寫一個插件IndexingFilter做到這一點。查看index-static插件,瞭解如何實現你的。
感謝它的工作。我添加了index.static屬性,然後在schema.xml中添加了字段定義並啓用了plugin.includes中的索引。 – Kumar 2014-09-22 04:11:06