2012-05-24 39 views
0

我有一個3從機hadoop羣集,我正在一個網站上執行爬網。但是,只有一個從機正在執行提取(儘管其他從機仍然存在)。如果只有1個域被抓取,這是正常行爲嗎?有什麼辦法可以強制其他奴隸去取?nutch hadoop只有一個從機正在爬行

謝謝。

回答

0

作爲任何Hadoop MR作業設計的一部分,有一個決定如何在作圖器之間分割作品。 在您的情況下,nutch會將站點的抓取過程分開,結果只有一個映射器用於抓取數據。如果你有更多的網站,它會分割負載。
以下是對過程的一個很好的描述:Nutch如何與Hadoop集羣一起工作?