Q

在Nutch中增量爬行

nutch

2014-11-17 58 views 0 likes

0

我是Nutch的新手，正在用Nutch 1.9做POC。我只是試圖抓取我自己的網站來設置搜索。我發現第一次抓取我只抓取一頁。第二次抓取40頁，第三次抓取300頁。增量減少，整體抓取大約400頁。有誰知道爲什麼它不會在第一次運行時完全抓取網站？我使用了nutch教程（http://wiki.apache.org/nutch/NutchTutorial），並按照第3.5節的說明使用腳本運行。在Nutch中增量爬行

，我也多次運行它不會抓取整個網站反正找到 - GSA帶回了900多頁的同一站點 - Nutch的帶回400

感謝好心

傑森

2014-11-17 user3839319

A

回答

0

爲什麼不使用Nutch郵件列表？你會從Nutch的其他用戶那裏得到更多的觀衆和更快的答案。

使用抓取腳本時，您爲循環次數設置了什麼值？將其設置爲1意味着您不會比種子列表中的URL更遠。使用較大的值通過一次調用腳本來抓取整個站點。

URL總數的差異可能是Kumar建議的每頁參數的最大值，但也可能是由於URL過濾。

2014-11-21 11:59:18

1

高達我所知，

Nutch的抓取從已知網頁已知的鏈接，獲得反向鏈接和出站鏈接然後添加這些鏈接到數據庫的下一次檢索。這似乎是nutch在單次運行時沒有抓取所有頁面的原因。

增量爬網意味着只抓取新的或更新的頁面並保留未修改的頁面。

因爲您的配置設置，Nutch cralws只限制頁面。將其更改爲抓取所有頁面。請參閱here

如果要搜索某個網站，請參閱Aperture。它將一次抓取整個網站。它提供了增量支持。

2014-11-17 05:17:24 Kumar

相關問題