2012-11-14 67 views
0

我是JSoup的新用戶。我想從html中提取href值。用Java中的撇號提取href值

例如:

String html = "<p>An <a href='http://exa'mple.com'><b>example</b></a> link.</p>"; 
Document doc = Jsoup.parse(html); 
Element link = doc.select("a").first(); 
String linkHref = link.attr("href"); 

我得到的輸出作爲"http://exa",但我需要輸出爲"http://exa'mple.com"(原始文本中HREF)。 link.outerHtml()提供了一些不同的文字。

我無法更改HTML。 HTML是用戶的輸入。

+0

這根本就是無效的HTML。 –

回答

0

試試這個:

String html = "<p>An <a href='http://exa%27mple.com'><b>example</b></a> link.</p>";

+0

我們不能改變html內容。 – user1825258

+0

那麼'String html =「

一個example鏈接。

」;' – jackcogdill

+0

它的一個樣本html ...我會得到這樣的內容。 – user1825258

0

我看不出這將是可能的,因爲該jsoup解析器會期待一個'關閉HREF參數,這也正是它得到。我認爲你唯一的選擇是預先解析用戶提供的字符串,但即使這樣也會很棘手,因爲你必須提出一個規則來區分「正確」和「不正確」的引號。