我正在實現一個網絡爬蟲,我正在使用Crawler4j庫。我沒有獲得網站上的所有鏈接。 我試圖使用Crawler4j提取一頁上的所有鏈接,並錯過了一些鏈接。如何使用crawler4j提取頁面上的所有鏈接?
Crawler4j版本:crawler4j-3.3
網址我使用的是:http:中幾乎60和4-5://testsite2012.site90.com/frontPage.html
的這個頁面上的鏈接號他們都在重複
號的鏈接crawler4j了:23
this是URL的網頁列表,this是crawler4j給出的URL列表。
我看了「HtmlContentHandler.java」文件使用crawler4j提取的鏈接。在這裏,只有與'src'和'href'鏈接相關的鏈接被提取。
我發現這些文件之間的區別。 Crawler4j缺少與'src'或'href'屬性無關的鏈接,它們位於'script'標籤下。 this是crawler4j未抓取的鏈接列表。
我怎樣才能提取此網頁上的所有鏈接? 我是否需要在HTML解析頁面上進行字符串處理(如查找'http'),還是應該更改'HtmlContentHandler.java'文件的代碼?
哪種方法最好?
即使我做的字符串操作,並提取此網頁上的所有鏈接,但Crawler4j爬行利用自身爬,也不會在這樣的情況下,它會錯過一些網頁的鏈接的網站的?
使用Jsoup解析器。簡單而整潔。 –
http://jsoup.org/cookbook/extracting-data/working-with-urls –