Nutch 1.9與Ubuntu 12.04發生問題。我正在嘗試抓取網站中的可用鏈接。我在seed.txt文件中給出了網址。除了http.agent.name(New)屬性和db.max.outlinks.per.page(-1)之外,我沒有對默認配置進行任何更改。我正在使用以下命令來抓取
crawl urls test -depth 3
抓取工具應抓取所有在3深度內可用的鏈接。但是,只有5個鏈接可用時,我運行以下linkdb命令。所有五個環節都在主頁
Nutch在給定域中只抓取幾個鏈接
nutch readlinkdb test/linkdb -dump myoutput/out1<br/>
我錯過任何配置更改可用?請幫助我。