2012-03-12 90 views
3

我想知道是否可以使用不同的配置文件集來運行相同的NUTCH實例?我無法看到參數列表中的任何選項允許這樣的事情。有沒有辦法用不同的配置文件運行NUTCH?

我想只在一臺計算機上運行NUTCH,我不想複製nutch實例。

有誰知道這樣做的簡單方法,還是我需要修改bin/nutch腳本來完成它。

謝謝。

回答

3

This nutch FAQ應該是有用的。答案描述瞭如何創建自定義conf目錄並讓nutch通過$NUTCH_CONF_DIR環境變量指向它。

+0

我已經閱讀之前,我相信這是使用子目錄只要。我正在尋找一種方式來指定當我調用bin/nutch時使用哪些配置。除非我錯過了某些東西。 – breakdown1986 2012-03-13 13:40:22

+0

@ breakdown1986我剛試過。它不僅適用於子文件夾,您可以將配置文件放在任何地方,並使用NUTCH_CONF_DIR讓nutch知道它所在的位置。我想這就是你要找的,讓我知道你是否需要幫助! – javanna 2012-03-13 13:53:20

+0

嗨javanna,我想用兩個不同的設置使用相同的nutch實例來抓取。例如,我需要爬取兩個不同的網站,並使用solr分別索引它們。我正在嘗試編寫一個shell腳本來自動執行此操作。因此我需要2套配置文件,所以在我的shell腳本中,我可以告訴nutch使用這兩種不同的設置。那有意義嗎 ?? – breakdown1986 2012-03-13 14:00:26

0

您可以使用Unix符號鏈接並在腳本中更改此鏈接。就像,如果你有regex-urlfilter-conf_A.txt和regex-urlfilter-conf_B.txt。在腳本中,開始Nutch的面前:

爲CONF答:

ln -sf $NUTCH_FOLDER/conf/regex-urlfilter-conf_A.txt $NUTCH_FOLDER/conf/regex-urlfilter.txt 

爲CONF B:

ln -sf $NUTCH_FOLDER/conf/regex-urlfilter-conf_B.txt $NUTCH_FOLDER/conf/regex-urlfilter.txt 
相關問題