我是Nutch的新手,正在用Nutch 1.9做POC。我只是試圖抓取我自己的網站來設置搜索。我發現第一次抓取我只抓取一頁。第二次抓取40頁,第三次抓取300頁。增量減少,整體抓取大約400頁。有誰知道爲什麼它不會在第一次運行時完全抓取網站?我使用了nutch教程(http://wiki.apache.org/nutch/NutchTutorial),並按照第3.5節的說明使用腳本運行。在Nutch中增量爬行
,我也多次運行它不會抓取整個網站反正找到 - GSA帶回了900多頁的同一站點 - Nutch的帶回400
感謝好心
傑森