如何在DOM對象中的兩個元素之間獲取文本？

我使用JSoup解析這個HTML內容：如何在DOM對象中的兩個元素之間獲取文本？

<div class="submitted"> 
    <strong><a title="View user profile." href="/user/1">user1</a></strong> 
    on 27/09/2011 - 15:17 
    <span class="via"><a href="/goto/002">www.google.com</a></span> 
</div>

它看起來像這樣的網絡瀏覽器：

user1 on 27/09/2011 - 15:17 www.google.com

的用戶名和網站可以使用這個被解析成變量：

String user = content.getElementsByClass("submitted").first().getElementsByTag("strong").first().text(); 
String website = content.getElementsByClass("submitted").first().getElementsByClass("via").first().text();

但我不確定如何獲得「上27/09/2011 -15：17」到一個變量，如果我用

String date = content.getElementsByClass("submitted").first().text();

它還包含用戶名和網站？

任何幫助，將不勝感激。先謝謝了。

來源

2011-09-27 markbse

您可以隨時刪除的user和website元素像這樣（你能克隆你的submitted元素，如果你不想刪除的行動「傷害」你的文件）：

public static void main(String[] args) throws Exception { 

    Document content = Jsoup.parse(
     "<div class=\"submitted\">" + 
     " <strong><a title=\"View user profile.\" href=\"/user/1\">user1</a></strong>" + 
     " on 27/09/2011 - 15:17 " + 
     " <span class=\"via\"><a href=\"/goto/002\">www.google.com</a></span>" + 
     "</div> "); 

    // create a clone of the element so we do not destroy the original 
    Element submitted = content.getElementsByClass("submitted").first().clone(); 

    // remove the elements that you do not need 
    submitted.getElementsByTag("strong").remove(); 
    submitted.getElementsByClass("via").remove(); 

    // print the result (demo) 
    System.out.println(submitted.text()); 
}

輸出：

on 27/09/2011 - 15:17

來源

2011-09-27 12:00:55 dacwe

這個竅門！非常感謝:) – markbse

然後你可以解析你得到的字符串。

String str[] = contentString.split(" ");

然後你就可以建造你想要像這樣的字符串：

String str = str[1] + " " + str[2] + " - " + str[4];

這將提取您所需要的字符串。

來源

2011-09-27 11:40:51 shake

用戶名可以包含空間並導致問題，但 – markbse

那麼你可以獲取用戶名和網絡爲變量，那麼它是沒有問題的提取給定的字符串寫入這樣的其他數據：contentString.replace（「用戶名」，「」）;和contentString.replace（「web」，「」）;這將從字符串中刪除用戶名和網絡名稱，然後您可以修剪字符串以刪除之前和之後留下的空格。 – shake

選擇要搶文本之前的元素，然後獲得它的下一個兄弟節點（不是元素），這是一個文本節點：

Document doc = Jsoup.parse("<div class=\"submitted\">" + 
    " <strong><a title=\"View user profile.\" href=\"/user/1\">user1</a></strong>" + 
    " on 27/09/2011 - 15:17 " + 
    " <span class=\"via\"><a href=\"/goto/002\">www.google.com</a></span>" + 
    "</div> "); 
String str = doc.select("strong").first().nextSibling().toString().trim(); 
System.out.println(str);

您也可以直接詢問其子文本節點和索引的元素（雖然引用由同級節點通常比索引更強大的）：

Document doc = Jsoup.parse(
      "<div class=\"submitted\">" + 
    " <strong><a title=\"View user profile.\" href=\"/user/1\">user1</a></strong>" + 
    " on 27/09/2011 - 15:17 " + 
    " <span class=\"via\"><a href=\"/goto/002\">www.google.com</a></span>" + 
    "</div> "); 
String str = doc.select("div").first().textNodes().get(1).text().trim(); 
System.out.println(str);

來源

2014-07-08 03:53:53

如何在DOM對象中的兩個元素之間獲取文本？

回答

相關問題