2011-03-01 189 views
1

嗨誰能推薦一個簡單的Java網絡爬蟲爬網站,並返回網站中的鏈接列表?不,我不需要解析器。感謝您的關注。java網絡爬蟲

+2

嗯......網絡爬蟲如何在沒有某種解析器的情況下提取網頁中的鏈接? – 2011-03-01 14:08:19

回答

2

一個網絡爬蟲(幾乎是定義)從來沒有'簡單'。

兩個名字映入腦海但是,(雖然兩者有一個學習曲線):

兩者都是開源的,可以完成你想要的,雖然只列出一個網站中的鏈接並不是建立起來的(Nutch旨在建立一個搜索索引,而Heritrix被設計爲存檔網站)。您將需要執行一些自定義配置來完成您的任務。

HTTrack是一個簡單得多的工具,但沒有在Java中實現。