2012-03-07 53 views

回答

1

在您從WebCrawler派生的類中,獲取頁面的內容,然後應用正則表達式。

Map<String, String> urlLinkText = new HashMap<String, String>(); 
String content = new String(page.getContentData(), page.getContentCharset()); 
Pattern pattern = Pattern.compile("<a[^>]*href=\"([^\"]*)\"[^>]*>([^<]*)</a[^>]*>", Pattern.CASE_INSENSITIVE); 
Matcher matcher = pattern.matcher(content); 
while (matcher.find()) { 
    urlLinkText.put(matcher.group(1), matcher.group(2)); 
} 

然後將urlLinkText粘貼到您的爬網完成後可以到達的某處。例如,你可以讓它成爲你的爬蟲類的私人成員並添加一個getter。