2014-07-03 70 views
0

我試圖從HTML文檔獲取文本獲取文本的HTML標籤之後後顯示結果

<p> 
    <b>1</b>First Text 
    <b>2</b><br>Second Text 
    <b>3</b>Third Text 
    . 
    . 
    . 
    . 
</p> 

線3號是哪裏的東西卡住

試着用下面的代碼,但出現錯誤。

Elements elements = doc.body().select("p").select("b"); 
    for(int i=0; i<elements.size(); i++) 
{ 
     Element val = elements.get(i); 

    if ((val.nextSibling().toString().trim()).equals("")) 
     System.out.println(val.nextSibling().toString().select("br").first().text()+"\n"); 
    else 
     System.out.println(val.nextSibling().toString()+"\n"); 

    } 

回答

0

這個問題不清楚,但似乎(從標題),您只需要在<br><b>的外面的文字。爲此,您可以使用ownText()

Elements elements = doc.select("p"); 
for(Element p: elements) { 
    System.out.println(p.ownText()); // Prints text that is in <p> but not in <b> 
} 
+1

您好,菲菲,感謝您的回答。對不清楚的問題抱歉。我希望將標記中的每個元素和接近的文本存儲在一個2d數組中。但我的代碼片段的問題是當它遇到
未封閉標籤。發生了錯誤。但我昨天找到了一個解決方案。發現異常並使用.nextSibling()。nextSibling()和我的工作完成。 – Roshan

相關問題