2013-04-02 38 views
0

假設我有兩臺使用nutch爬行兩個不同域的不同機器。如何合併nutch中的兩個crawldb

現在我想他們crawldb合併成一個。我怎樣才能做到這一點 ?

我在其他地方見過 - 會命令:

bin/nutch mergedb <crawldb1> <crawldb2> 

做什麼,我打算做什麼?

此外,如果讓說,這些crawldb的一個由網站生成本地託管網站即說維基百科爬本身並保存它作爲crawldb1

和其他一些網站可以說計算器也做了同樣的。

在這種情況下,我可以合併這兩個crawld到一個,但修改這些以一種方式來反映他們的實際URL而不是相對的(我的意思是URL的數據庫的新位置)。

很抱歉,如果我不是在描述非常清晰。在此先感謝

回答

0

只有一個,找出是否可行辦法,試試看。首先閱讀手冊,你錯過了你的合併數據庫參數。見http://wiki.apache.org/nutch/bin/nutch%20mergedb

+0

感謝您的答覆 –

+0

請接受我的反應。 – Claude

+0

對不起,但我不認爲我仍然得到我的答案。 –

0

您可以合併兩個數據塊在crawldb所有URL總是存儲在滿。 Nutch從不存儲任何相關的URL。

你寫的,如果你要合併crawldb localcrawldb和stackoverflowcrawldb

你寫

斌/ Nutch的crawldb mergedcrawldb localcrawldb stackoverflowcrawldb

兩者crawldbs將合併crawldb2到crawldb1

命令將被合併到mergedcrawldb中。