0
我剛剛開始研究內容提取項目。首先,我正在嘗試訪問網頁中的圖片網址。在某些情況下,「img」的「src」屬性具有相對URL。但我需要獲取完整的網址。從java中的網頁中提取圖像
我正在尋找一些Java庫來實現這一點,並認爲Jsoup將是有益的。有沒有其他圖書館可以輕鬆實現?
我剛剛開始研究內容提取項目。首先,我正在嘗試訪問網頁中的圖片網址。在某些情況下,「img」的「src」屬性具有相對URL。但我需要獲取完整的網址。從java中的網頁中提取圖像
我正在尋找一些Java庫來實現這一點,並認爲Jsoup將是有益的。有沒有其他圖書館可以輕鬆實現?
如果你只是需要從一個相對得到完整的URL,解決方法很簡單Java中:
URL pageUrl = base_url_of_the_html_page;
String src = src_attribute_value; //relative or absolute URL
URL imgUrl = new URL(pageUrl, src);
HTML頁面的基URL通常只是你獲得的HTML代碼的URL從。但是,文檔頭中使用的<基地標記>可用於指定不同的基本URL(但它不會非常頻繁地使用)。
您可以使用Jsoup或DOM解析器獲取src屬性值並查找最終的基本標記。
不太可能。你需要自己保持對路徑的引用。您可以使用URL來提取規範的各種元素以幫助您 – MadProgrammer 2013-02-19 21:00:24