apache nutch不會將子鏈接添加到主站點

任何人都可以請給出一個關於如何正確配置apache nutch以獲取一定數量的記錄在數據庫中作爲搜索網站的結果的指導。我非常感謝！apache nutch不會將子鏈接添加到主站點

這裏詳細介紹：

我有以下行我bin/urls/seed.txt文件：

http://transmetod.ru/

下面是正則表達式，urlfilter.txt文件（所有其他的正則表達式被註釋掉）行：

+^http://([a-z0-9]*\.)*transmetod.ru/([a-z0-9]*\.)*

基本上我想到很多的記錄在數據庫中出現爬行的結果，但唯一一個到了那裏只是與基本URL的單個記錄（威斯康星TH任何其他記錄在URL中附加子鏈路）

這是一個命令行我用它來運行Apache的Nutch的-2.1項目：

./nutch crawl urls -depth 3 -topN 10000

任何人都可以點我出來的錯誤，我」已經做出或陣風給出一些建議？

PS：基本上，當我建的項目並運行它沒有任何變化，我沒有得到了一系列的記錄，以及...（如果我remmember正確的事情）

2013-04-29 SergeZ

試着改變你的正則表達式過濾器：

+^http://([a-z0-9]*.)transmetod.ru/

此外，當您第一次運行Nutch時，它會抓取您放入種子文件的網址。下一次運行爬網時，使用相同的抓取文件夾，應該抓取第一頁的鏈接並抓取它們。

2013-05-14 20:04:16 nimeshjm

非常感謝，我會嘗試並獲得關於它是否有幫助的反饋！ – SergeZ 2013-06-11 08:07:28

回答