我無法在Hadoop YARN上爲Nutch 1.7運行多個獲取Map獲取。在Hadoop羣集上運行多個Apache Nutch獲取地圖任務
我正在使用bin/crawl腳本,並進行了以下調整以觸發具有多個地圖任務的提取,但我無法這樣做。
將maxNumSegments和numFetchers參數添加到生成階段。 $斌/ Nutch的產生$ commonOptions $ CRAWL_PATH/crawldb $ CRAWL_PATH /段-maxNumSegments $ numFetchers -numFetchers $ numFetchers -noFilter
刪除了TOPN放慢參數並刪除了noParsing參數,因爲我想解析當時發生的提取。 $斌/ Nutch的取$ commonOptions -D fetcher.timelimit.mins = $ $ timeLimitFetch CRAWL_PATH /分段/ $ SEGMENT -threads $ numThreads#-noParsing#
的生成相位不產生多於一個的段。
因此,獲取階段不會創建多個地圖任務,我相信腳本寫入它不允許fecth感染多個segemnts,即使生成要生成多個段。
有人能讓我知道,他們如何讓腳本在分佈式Hadoop集羣中運行?或者如果有不同版本的腳本應該使用?
謝謝。