2014-11-03 54 views
0

Nutch 1.9與Ubuntu 12.04發生問題。我正在嘗試抓取網站中的可用鏈接。我在seed.txt文件中給出了網址。除了http.agent.name(New)屬性和db.max.outlinks.per.page(-1)之外,我沒有對默認配置進行任何更改。我正在使用以下命令來抓取
crawl urls test -depth 3
抓取工具應抓取所有在3深度內可用的鏈接。但是,只有5個鏈接可用時,我運行以下linkdb命令。所有五個環節都在主頁
Nutch在給定域中只抓取幾個鏈接

nutch readlinkdb test/linkdb -dump myoutput/out1<br/> 

我錯過任何配置更改可用?請幫助我。

回答

0

URL的數量設置爲使用-topN每個級別抓取:

斌/ Nutch的爬行$ URLS -dir $ CRAWL_LOC -depth 3 -topN 1000

0

在Nutch的1.10分貝。 ignore.internal.links默認爲true,這意味着鏈接數據庫不會包含內部鏈接,只有外部鏈接。如果您尚未更改默認設置,則鏈接數據庫不會反映爬網的範圍。如果你想讓它包含這些鏈接,你可以在配置文件中將這個屬性的值改爲false。

如果您想查看所有已爬網的鏈接,請轉儲爬網數據庫。在1.10這樣做是通過:

bin/nutch readdb MyCrawl/crawldb/ -dump crawlout 

我不知道的差異是1.9和1.10之間是什麼,但我想的命令是相似的。 (1.10發行說明並不表示處理內部鏈接已更改。)