我是使用Nutch的新手,我想抓取我輸入的整個種子列表。Nutch 1.12和elasticsearch 1.4.1性能需求
第一:我用腳本: 倉/爬行-i -D elastic.server.url = http://localhost:9200/index_name/網址ksu_Crawldb/30
與:2的CPU和7.5 GB存儲器
但2後它只需要讀取63500文件,CPU只佔用50%,而不是全部使用。
我想知道,如何獲取在短時間內文件最大。
第二:topN,深度和回合有什麼區別?
感謝您的任何幫助。
感謝您的回覆。我從事線程的配置來處理這個問題。 –
我也修改了每個隊列的線程數,可以達到很好的響應。 @Julien Nioche:感謝您的信息! –