Nutch在給定域中只抓取幾個鏈接

Nutch 1.9與Ubuntu 12.04發生問題。我正在嘗試抓取網站中的可用鏈接。我在seed.txt文件中給出了網址。除了http.agent.name（New）屬性和db.max.outlinks.per.page（-1）之外，我沒有對默認配置進行任何更改。我正在使用以下命令來抓取
crawl urls test -depth 3
抓取工具應抓取所有在3深度內可用的鏈接。但是，只有5個鏈接可用時，我運行以下linkdb命令。所有五個環節都在主頁
Nutch在給定域中只抓取幾個鏈接

nutch readlinkdb test/linkdb -dump myoutput/out1<br/>

我錯過任何配置更改可用？請幫助我。

來源

2014-11-03 Satheesh

URL的數量設置爲使用-topN每個級別抓取：

斌/ Nutch的爬行$ URLS -dir $ CRAWL_LOC -depth 3 -topN 1000

來源

2014-11-07 11:57:54

在Nutch的1.10分貝。 ignore.internal.links默認爲true，這意味着鏈接數據庫不會包含內部鏈接，只有外部鏈接。如果您尚未更改默認設置，則鏈接數據庫不會反映爬網的範圍。如果你想讓它包含這些鏈接，你可以在配置文件中將這個屬性的值改爲false。

如果您想查看所有已爬網的鏈接，請轉儲爬網數據庫。在1.10這樣做是通過：

bin/nutch readdb MyCrawl/crawldb/ -dump crawlout

我不知道的差異是1.9和1.10之間是什麼，但我想的命令是相似的。（1.10發行說明並不表示處理內部鏈接已更改。）

來源

2015-07-14 20:10:07 sew

Nutch在給定域中只抓取幾個鏈接

回答

相關問題