2012-07-06 29 views
0

什麼是最好的(最短)的方式開始構建的網絡抓取工具,這將是足夠的靈活性,幾乎所有類型的網站工作,並能存儲這些網站在數據庫中進行檢索。如何開始建立基於Java的Web的抓取工具

我想建立類似「谷歌搜索」,其中「谷歌搜索」進行搜索之前緩存所有的網站,其服務器的東西。

這是我的研究項目的組成之一。

請讓我知道是否已經有一些開源項目,這將使我的工作更容易。

我寧願Java來構建這個。

回答

2

喜歡的東西heritrix例如?

+0

感謝信息。我不知道heritrix。 – Watt 2012-07-06 17:14:39