Nutch 1.12和elasticsearch 1.4.1性能需求

我是使用Nutch的新手，我想抓取我輸入的整個種子列表。Nutch 1.12和elasticsearch 1.4.1性能需求

第一：我用腳本：倉/爬行-i -D elastic.server.url = http://localhost:9200/index_name/網址ksu_Crawldb/30

與：2的CPU和7.5 GB存儲器

但2後它只需要讀取63500文件，CPU只佔用50％，而不是全部使用。

我想知道，如何獲取在短時間內文件最大。

第二：topN，深度和回合有什麼區別？

感謝您的任何幫助。

我最近在Nutch上發佈了一些benchmarks，並解釋了爲什麼資源不能最大限度地持續使用。基本上，Apache Nutch基於Hadoop，因此是批量驅動的：不同的操作是連續進行的。另請參閱this Q&A。

可以通過多種方式調整性能，但關鍵因素僅僅是您從中獲取的主機的多樣性以及禮貌設置。

第二：topN，depth和rounds之間有什麼區別？

TOPN是網址的數量用於讀取根據自己的成績選擇深度爲種子對外連結來得到一個特定的URL 回合數是取的迭代次數/分析/更新

深度和圓度通常是相同的，但不一定是

2017-01-24 08:47:06

感謝您的回覆。我從事線程的配置來處理這個問題。 –

我也修改了每個隊列的線程數，可以達到很好的響應。 @Julien Nioche：感謝您的信息！ –

回答