2009-05-18 52 views
2

我正在構建一個小型網絡爬蟲,我想知道是否有人對實際實現(只是爬行,沒有搜索,沒有排名,沒有分類,只是爬行,吻:)有一些有趣的信息。有關網絡爬行技術的信息

爲了記錄,我已經有O'Reilly「Spiderring hacks」和No Starch Press「Webbots,spiders和screen scrapers」。這些書很好,但是它們往往使事情變得簡單,並沒有詳細說明縮放,存儲數據,並行內容和其他更高級的主題。當然,我可以查看一個現有的開源爬蟲的代碼,但這將發生在另一邊(C++爬蟲似乎很複雜......)。我正在尋找一些有趣的/自信的信息。

任何幫助,歡迎提前致謝。

回答

2

如果您對網絡爬蟲的實現細節感興趣,可以研究現有的開源實現。以下是Open Source Crawlers in Java的列表。這些項目大部分都是不活動的。但互聯網檔案館的抓取工具Heritix和Apache Nutch是成熟的活動項目,有很多可供借鑑的地方。