2013-04-29 54 views
0

任何人都可以請給出一個關於如何正確配置apache nutch以獲取一定數量的記錄在數據庫中作爲搜索網站的結果的指導。我非常感謝!apache nutch不會將子鏈接添加到主站點

這裏詳細介紹:

我有以下行我bin/urls/seed.txt文件:

http://transmetod.ru/ 

下面是正則表達式,urlfilter.txt文件(所有其他的正則表達式被註釋掉)行:

+^http://([a-z0-9]*\.)*transmetod.ru/([a-z0-9]*\.)* 

基本上我想到很多的記錄在數據庫中出現爬行的結果,但唯一一個到了那裏只是與基本URL的單個記錄(威斯康星TH任何其他記錄在URL中附加子鏈路)

這是一個命令行我用它來運行Apache的Nutch的-2.1項目:

./nutch crawl urls -depth 3 -topN 10000 

任何人都可以點我出來的錯誤,我」已經做出或陣風給出一些建議?

PS:基本上,當我建的項目並運行它沒有任何變化,我沒有得到了一系列的記錄,以及...(如果我remmember正確的事情)

回答

0

試着改變你的正則表達式過濾器:

+^http://([a-z0-9]*.)transmetod.ru/ 

此外,當您第一次運行Nutch時,它會抓取您放入種子文件的網址。 下一次運行爬網時,使用相同的抓取文件夾,應該抓取第一頁的鏈接並抓取它們。

+0

非常感謝,我會嘗試並獲得關於它是否有幫助的反饋! – SergeZ 2013-06-11 08:07:28

相關問題