2017-01-23 34 views
0

我是使用Nutch的新手,我想抓取我輸入的整個種子列表。Nutch 1.12和elasticsearch 1.4.1性能需求

第一:我用腳本: 倉/爬行-i -D elastic.server.url = http://localhost:9200/index_name/網址ksu_Crawldb/30

與:2的CPU和7.5 GB存儲器

但2後它只需要讀取63500文件,CPU只佔用50%,而不是全部使用。

enter image description here

我想知道,如何獲取在短時間內文件最大。

第二:topN,深度和回合有什麼區別?

感謝您的任何幫助。

回答

1

我最近在Nutch上發佈了一些benchmarks,並解釋了爲什麼資源不能最大限度地持續使用。基本上,Apache Nutch基於Hadoop,因此是批量驅動的:不同的操作是連續進行的。另請參閱this Q&A

可以通過多種方式調整性能,但關鍵因素僅僅是您從中獲取的主機的多樣性以及禮貌設置。

第二:topN,depth和rounds之間有什麼區別?

TOPN是網址的數量用於讀取根據自己的成績選擇 深度爲種子對外連結來得到一個特定的URL 回合數是取的迭代次數/分析/更新

深度和圓度通常是相同的,但不一定是

+0

感謝您的回覆。我從事線程的配置來處理這個問題。 –

+0

我也修改了每個隊列的線程數,可以達到很好的響應。 @Julien Nioche:感謝您的信息! –