有關網絡爬行技術的信息

我正在構建一個小型網絡爬蟲，我想知道是否有人對實際實現（只是爬行，沒有搜索，沒有排名，沒有分類，只是爬行，吻:)有一些有趣的信息。有關網絡爬行技術的信息

爲了記錄，我已經有O'Reilly「Spiderring hacks」和No Starch Press「Webbots，spiders和screen scrapers」。這些書很好，但是它們往往使事情變得簡單，並沒有詳細說明縮放，存儲數據，並行內容和其他更高級的主題。當然，我可以查看一個現有的開源爬蟲的代碼，但這將發生在另一邊（C++爬蟲似乎很複雜......）。我正在尋找一些有趣的/自信的信息。

任何幫助，歡迎提前致謝。

來源

2009-05-18 kal3v

如果您對網絡爬蟲的實現細節感興趣，可以研究現有的開源實現。以下是Open Source Crawlers in Java的列表。這些項目大部分都是不活動的。但互聯網檔案館的抓取工具Heritix和Apache Nutch是成熟的活動項目，有很多可供借鑑的地方。

來源

2009-06-03 11:54:56 Palimondo

有關網絡爬行技術的信息

回答

相關問題