2013-02-19 25 views
0

我剛剛開始研究內容提取項目。首先,我正在嘗試訪問網頁中的圖片網址。在某些情況下,「img」的「src」屬性具有相對URL。但我需要獲取完整的網址。從java中的網頁中提取圖像

我正在尋找一些Java庫來實現這一點,並認爲Jsoup將是有益的。有沒有其他圖書館可以輕鬆實現?

+1

不太可能。你需要自己保持對路徑的引用。您可以使用URL來提取規範的各種元素以幫助您 – MadProgrammer 2013-02-19 21:00:24

回答

1

如果你只是需要從一個相對得到完整的URL,解決方法很簡單Java中:

URL pageUrl = base_url_of_the_html_page; 
String src = src_attribute_value; //relative or absolute URL 
URL imgUrl = new URL(pageUrl, src); 

HTML頁面的基URL通常只是你獲得的HTML代碼的URL從。但是,文檔頭中使用的<基地標記>可用於指定不同的基本URL(但它不會非常頻繁地使用)。

您可以使用Jsoup或DOM解析器獲取src屬性值並查找最終的基本標記。