2014-04-02 249 views
0

我想在HTML中使用Jsoup提取特定內容。以下是示例html內容。解析HTML,jsoup

<span style="white-space:nowrap;"> 
       <a class="CategoryTitle ArticleAllDC" title="рубрика" href="http://tlt.ru/articles.php?category=3">Культура</a> 
       <span class="ArticleMainDCnew ArticleAllDC" title="источник">&nbsp;/&nbsp;TLT.ru</span> 
       <span class="ArticleMainDCnew ArticleAllDC" title="дата время [просмотры] (комментарии)">&nbsp;/&nbsp;02.04 12:35 [85] (0)</span> 
      </span> 
     </p> 

我想02.04 12:35 [85] (0)。請幫助我,我該怎麼做?

回答

1

沒有任何的優化的最簡單的方法:

String input = "<span style=\"white-space:nowrap;\">" + 
      "    <a class=\"CategoryTitle ArticleAllDC\" title=\"рубрика\" href=\"http://tlt.ru/articles.php?category=3\">Культура</a>" + 
      "    <span class=\"ArticleMainDCnew ArticleAllDC\" title=\"источник\">&nbsp;/&nbsp;TLT.ru</span>" + 
      "    <span class=\"ArticleMainDCnew ArticleAllDC\" title=\"дата время [просмотры] (комментарии)\">&nbsp;/&nbsp;02.04 12:35 [85] (0)</span>" + 
      "   </span>" + 
      "  </p>"; 
Document d = Jsoup.parse(input); 
Elements elements = d.select("span[title^=дата]"); 
System.out.println(elements.get(0).html().replaceAll("&nbsp;/&nbsp;","")); 

輸出:

02.04 12:35 [85] (0) 

P.S.在Android的情況下,你應該使用Log類獲得輸出

0

在我的時間在這裏在Oodles技術,我學到了一兩件關於解析。我可以在這裏添加。

步驟如下: -

步驟-1。從http://jsoup.org/download下載jsop jar文件並將其添加到您的grails/java項目中。

步驟-2。使用以下代碼來解析HTML

String url = 'www.surveymyapp.com' // html file url 
def htmlPage = Jsoup.connect(url).get() // parse html from url 

步驟3。現在我們可以調用jsoup的不同方法來獲取數據。

例如 - 要通過div名稱獲取數據 'divName'

def divData = htmlPage.select("div.divName").first().toString().text() 

爲了讓圖像源 '標誌'

def imageSrc = detailsInfo.select("img.logo").attr("src")