2013-10-20 85 views
1

我有一個問題,我嘗試對已經抓取的東西發佈新的抓取,但使用了一些新的URL。Nutch抓取並忽略新的Url

所以首先我有

網址/ urls.txt - > www.somewebsite.com

我然後發出命令

bin/nutch crawl urls -dir crawl -depth 60 -threads 50

然後我更新的URL/urls.txt - >刪除www.somewebsite.com - >添加www.anotherwebsite.com

我發出命令

bin/nutch inject crawl urls

bin/nutch crawl urls -dir crawl -depth 60 -threads 50

我希望在我們這裏什麼,是www.anotherwebsite.com注入現有的「爬」數據庫,併發出爬行時再次它應該只抓取新的網站香港專業教育學院加入www.anotherwebsite.com(如原始的重新讀取設置爲30天)

我所經歷的,要麼

1)沒有網站被爬

2.)只有原始網站被抓取

'有時'如果我離開它幾個小時,它開始工作,並拿起新網站,並抓取舊網站和新網站(即使重新獲取時間設置爲30天)

其非常奇怪和不可預知的行爲。

我很確定我的regex-urlfilter文件設置正確,而且我的nutch-site/nutch-default默認設置都是默認設置(足夠接近)。

問題:

任何人都可以簡單地解釋(用命令)什麼是每個爬網期間發生的事情,以及如何更新一些新的網址現有的爬分貝?

任何人都可以解釋(與命令)我如何強制重新抓取抓取數據庫中的'所有'網址? - 我已經發布了一個readdb並檢查了重新讀取次數,並且大多數都設置爲一個月,但是如果我想盡快重新讀取,該怎麼辦?

+0

我已經回答了我的問題 - 大部分從這裏的信息一直是有用的: http://wiki.apache.org/nutch/FAQ –

回答

3

文章Here解釋了足夠的深度抓取過程