2014-11-17 58 views
0

我是Nutch的新手,正在用Nutch 1.9做POC。我只是試圖抓取我自己的網站來設置搜索。我發現第一次抓取我只抓取一頁。第二次抓取40頁,第三次抓取300頁。增量減少,整體抓取大約400頁。有誰知道爲什麼它不會在第一次運行時完全抓取網站?我使用了nutch教程(http://wiki.apache.org/nutch/NutchTutorial),並按照第3.5節的說明使用腳本運行。在Nutch中增量爬行

,我也多次運行它不會抓取整個網站反正找到 - GSA帶回了900多頁的同一站點 - Nutch的帶回400

感謝好心

傑森

回答

0

爲什麼不使用Nutch郵件列表?你會從Nutch的其他用戶那裏得到更多的觀衆和更快的答案。

使用抓取腳本時,您爲循環次數設置了什麼值?將其設置爲1意味着您不會比種子列表中的URL更遠。使用較大的值通過一次調用腳本來抓取整個站點。

URL總數的差異可能是Kumar建議的每頁參數的最大值,但也可能是由於URL過濾。

1

高達我所知,

Nutch的抓取從已知網頁已知的鏈接,獲得反向鏈接和出站鏈接然後添加這些鏈接到數據庫的下一次檢索。這似乎是nutch在單次運行時沒有抓取所有頁面的原因。

增量爬網意味着只抓取新的或更新的頁面並保留未修改的頁面。

因爲您的配置設置,Nutch cralws只限制頁面。將其更改爲抓取所有頁面。請參閱here

如果要搜索某個網站,請參閱Aperture。它將一次抓取整個網站。它提供了增量支持。