2015-04-20 55 views
0

我必須將HTML中的所有文本元素提取到Java字符串中。但在單獨的字符串。如何使用jSoup在一個html類中獲取多個「a href」

我有以下代碼:

<div class="sb-spieldaten"> 
    <p class="sb-datum hide-for-small"> 
     <a href="/jumplist/spieltag/wettbewerb/C1/saison_id/2014/spieltag/2">2. Spieltag</a> 
     &nbsp;&nbsp;|&nbsp;&nbsp; 
     <a href="/aktuell/waspassiertheute/aktuell/new/datum/2014-07-26">Sa., 26.07.2014</a> 
     &nbsp;&nbsp;|&nbsp;&nbsp;17:45 Uhr 
    </p> 
    <p class="sb-datum show-for-small"> 
     <a href="/jumplist/spieltag/wettbewerb/C1/saison_id/2014/spieltag/2">2. Spieltag</a> 
     <br /> 
     <a href="/aktuell/waspassiertheute/aktuell/new/datum/2014-07-26">26.07.2014</a> 
     <br> 
     17:45 Uhr 
    </p> 
    <div class="ergebnis-wrap"> 
     <div class="sb-ergebnis"> 
      <div class="sb-endstand">2:3 
       <div class="sb-halbzeit">(<span>2:</span>2) 
       </div> 
      </div> 
     </div> 
    </div> 
    <p class="sb-zusatzinfos"> 
     <span class="hide-for-small"> 
      <a href="/stadion/stadion/verein/504/saison_id/2014">Letzigrund</a> 
      &nbsp;&nbsp;|&nbsp;&nbsp; 
      <strong>4.200 Zuschauer</strong> 
      <br /> 
     </span> 
     <strong>Schiedsrichter:</strong> 
     <br class="show-for-small" /> 
     <a title="Fedayi San" href="/fedayi-san/profil/schiedsrichter/4791">Fedayi San</a> 
    </p> 
</div> 

我用:

Elements myText = doc.getElementsByClass("sb-spieldaten"); 
String myString = myText.select(a.sb-datum.hide-for-small").text(); 

但有了這個我提取類中的所有字符串「隱藏換小」。所以我得到的答案是:2. Spieltag | Sa.,26.07.2014 | 17:45 Uhr 2. Spieltag 26.07.2014 17:45 Uhr Letzigrund | 4200 Zuschauer Schiedsrichter:Fedayi San

我該如何得到這個字符串中的一個?我無法用.getElementsByClass(「...」)理解它。有沒有辦法提取特定的「a href」元素?或者我必須使用.split()方法嗎?

+0

其中'一個href'元素你要不要? – chenzhongpu

+0

大家。但是當我知道如何提取一個的時候,我和其他人一樣。 –

+0

你想要提取的人必須有一些獨特的屬性。這裏的屬性通常鏈接到'CSS查詢'['公共元素選擇(String cssQuery)']。 – chenzhongpu

回答

0

代碼段例如

Document abc = Jsoup.connect("http://www.abc.in/").timeout(0).get(); 
Elements ee = abc.select("a[href*=xyz]");// all hrefs containing xyz substring 
String xyz = ee.first().attr("abs:href"); 
0

「元素myText = doc.getElementsByClass(x);」

看@問題網頁的CSS,找到分配給相關元素的CSS元素的類ID。