2014-11-25 147 views
0

我想從使用jsoup的網頁中提取內容。值在內部標籤中如何提取這些值?使用jsoup從Div標籤的內部標籤獲取屬性值

例如

< div id="tfm_skyscraper" class="top_right_skyscraper"></div> 
    <nav class="main group"> 
    <section class="verticals world group" data-beacon="{&quot;p&quot"> 
    <ul class="verticals-ul"> 
     <li class="front-page toplevel" data-beacon="{&quot"> 
     <a class="toplevel-a" href="http://www.huffingtonpost.com" title="Home" tabindex="1" sl-processed="1">FRONT PAGE</a>* 

     </li>       
    </ul> 
</section> 
</nav> 

我想在錨標記的內容解壓頭版 *將如何做到這一點?

回答

0

這將使用jsoup 標記值都喜歡 頭版政治企業娛樂媒體等 可以ü打印所有鏈接標記的與類文本toplevel-a

import org.jsoup.Jsoup; 
import org.jsoup.nodes.Document; 
import org.jsoup.nodes.Element; 
import org.jsoup.select.Elements; 

public class Main { 

    public static void main(String[] args) throws Exception { 
     String html = "<div id=\"tfm_skyscraper\" class=\"top_right_skyscraper\"></div>" + 
          "<nav class=\"main group\">" + 
           "<section class=\"verticals world group\" data-beacon=\"{&quot;p&quot\">" + 
            "<ul class=\"verticals-ul\">" + 
             "<li class=\"front-page toplevel\" data-beacon=\"{&quot\">" + 
              "<a class=\"toplevel-a\" href=\"http://www.huffingtonpost.com\" title=\"Home\" tabindex=\"1\" sl-processed=\"1\">FRONT PAGE</a>*" + 
             "</li>" +       
            "</ul>" + 
           "</section>" + 
          "</nav>"; 

     Document doc = Jsoup.parse(html); 
     Elements els = doc.select("a.toplevel-a"); 
     for(Element el : els) { 
      System.out.println(el.text()); 
     } 
    } 
} 
+0

我可以直接從URL中提取值請清除我的dobut? 我試試這種方式,這是正確的,我只有一個標籤值 例如: Document doc; doc = Jsoup.connect(「http://www.huffingtonpost.com/2014/11/23/israel-new-laws_n_6207042.html#comments」).get(); 元素linktag = doc.select(「ul.verticals-ul」)。select(「li」)。select(「a.toplevel-a」); \t \t迭代器 itrlinktag = linktag.iterator(); (itrlinktag.hasNext()){ System.out.print(itrlinktag.next()。text()); } – spk 2014-11-27 06:36:04

+0

對不起,但我不明白你的問題。 – alkis 2014-11-27 21:48:49

+0

我的問題是您將每個標記轉換爲字符串後提取值。與轉換標籤到字符串提取的值是可能的? – spk 2014-11-28 14:28:06