0
任何人都可以請給出一個關於如何正確配置apache nutch以獲取一定數量的記錄在數據庫中作爲搜索網站的結果的指導。我非常感謝!apache nutch不會將子鏈接添加到主站點
這裏詳細介紹:
我有以下行我bin/urls/seed.txt
文件:
http://transmetod.ru/
下面是正則表達式,urlfilter.txt文件(所有其他的正則表達式被註釋掉)行:
+^http://([a-z0-9]*\.)*transmetod.ru/([a-z0-9]*\.)*
基本上我想到很多的記錄在數據庫中出現爬行的結果,但唯一一個到了那裏只是與基本URL的單個記錄(威斯康星TH任何其他記錄在URL中附加子鏈路)
這是一個命令行我用它來運行Apache的Nutch的-2.1項目:
./nutch crawl urls -depth 3 -topN 10000
任何人都可以點我出來的錯誤,我」已經做出或陣風給出一些建議?
PS:基本上,當我建的項目並運行它沒有任何變化,我沒有得到了一系列的記錄,以及...(如果我remmember正確的事情)
非常感謝,我會嘗試並獲得關於它是否有幫助的反饋! – SergeZ 2013-06-11 08:07:28