假設我有兩臺使用nutch爬行兩個不同域的不同機器。如何合併nutch中的兩個crawldb
現在我想他們crawldb合併成一個。我怎樣才能做到這一點 ?
我在其他地方見過 - 會命令:
bin/nutch mergedb <crawldb1> <crawldb2>
做什麼,我打算做什麼?
此外,如果讓說,這些crawldb的一個由網站生成本地託管網站即說維基百科爬本身並保存它作爲crawldb1
和其他一些網站可以說計算器也做了同樣的。
在這種情況下,我可以合併這兩個crawld到一個,但修改這些以一種方式來反映他們的實際URL而不是相對的(我的意思是URL的數據庫的新位置)。
很抱歉,如果我不是在描述非常清晰。在此先感謝
感謝您的答覆 –
請接受我的反應。 – Claude
對不起,但我不認爲我仍然得到我的答案。 –