2011-04-23 53 views
0

我想從html頁面獲取所有的url。 我已經成功地從頁面本身獲取網址,但也有JavaScript包含網址。 如何從他們那裏獲取網址? 我一直在尋找一段時間,我會感謝您的幫助。使用java從javascript中提取url鏈接

+0

發佈您嘗試過的一些代碼...可能會幫助我們,幫助您... – 2011-04-23 08:52:08

回答

0

如果URL只是JavaScript代碼中的字符串,那麼您可以通過在「腳本」標記文本中匹配看起來像URL的所有內容來提取它們。例如:

List<URL> urls = new ArrayList<URL>(); 
Pattern p = Pattern.compile(myUrlPattern); 
Matcher m = p.matcher(eachScriptTagText); 
while (m.find()) { 
    urls.add(m.group()); 
} 

URL的正則表達式很容易在互聯網上找到。

0

這是Sun在webcrawling上的classic article。它包含一些從HTML中提取URL的示例代碼。