Nutch抓取並忽略新的Url

我有一個問題，我嘗試對已經抓取的東西發佈新的抓取，但使用了一些新的URL。Nutch抓取並忽略新的Url

所以首先我有

網址/ urls.txt - > www.somewebsite.com

我然後發出命令

bin/nutch crawl urls -dir crawl -depth 60 -threads 50

然後我更新的URL/urls.txt - >刪除www.somewebsite.com - >添加www.anotherwebsite.com

我發出命令

bin/nutch inject crawl urls

bin/nutch crawl urls -dir crawl -depth 60 -threads 50

我希望在我們這裏什麼，是www.anotherwebsite.com注入現有的「爬」數據庫，併發出爬行時再次它應該只抓取新的網站香港專業教育學院加入www.anotherwebsite.com（如原始的重新讀取設置爲30天）

我所經歷的，要麼

1）沒有網站被爬

2.）只有原始網站被抓取

'有時'如果我離開它幾個小時，它開始工作，並拿起新網站，並抓取舊網站和新網站（即使重新獲取時間設置爲30天）

其非常奇怪和不可預知的行爲。

我很確定我的regex-urlfilter文件設置正確，而且我的nutch-site/nutch-default默認設置都是默認設置（足夠接近）。

問題：

任何人都可以簡單地解釋（用命令）什麼是每個爬網期間發生的事情，以及如何更新一些新的網址現有的爬分貝？

任何人都可以解釋（與命令）我如何強制重新抓取抓取數據庫中的'所有'網址？ - 我已經發布了一個readdb並檢查了重新讀取次數，並且大多數都設置爲一個月，但是如果我想盡快重新讀取，該怎麼辦？

我已經回答了我的問題 - 大部分從這裏的信息一直是有用的： http://wiki.apache.org/nutch/FAQ –

文章Here解釋了足夠的深度抓取過程

2013-10-31 11:52:22

回答