2015-04-01 106 views
0

我正試圖優化nutch的性能來抓取網站。現在我測試小Hadoop羣集上的性能,只有兩個節點32GB RAM,CPU Intel Xeon E3 1245v2 4c/8t。 我的配置nutch http://pastebin.com/bBRHpFuq優化hadoop集羣上的nutch性能

所以,問題:取工作並不理想。一些減少任務有4k頁用於抓取,一些1kk頁面。例如查看屏幕截圖https://docs.google.com/file/d/0B98dgNxOqKMvT1doOVVPUU1PNXM/edit一些減少任務在10分鐘內完成,但一個任務工作11小時,仍然繼續工作,所以當我有24個減少任務時,它就像一個瓶頸,但只有一個工作。

可能有人可以提供有用的建議或鏈接,我可以閱讀有關問題。

回答

1

這是Nutch的問題,它從一個站點需要大約50000000個,其他站點需要500000個。所以當它通過主機創建隊列時,我們會看到一個非常大的隊列和其他很小的隊列。