2012-03-20 20 views
1

使用傑里科,我需要分析是這樣的:如何解析沒有使用Jericho的嵌套html元素的文本?

<html> 
<div class="title"> 
    Spoon bows 
    <br/> 
    <span> 
     A Matrix scene. 
     <br/> 
     Matrix 1 
    </span> 
</div> 
</html> 

我想分析「勺弓」,但我用下面的代碼獲得<div>標籤內的全部內容:

List<Element> list = item.getAllElementsByClass("title"); 
if(list!=null) { 
    Element title = list.get(0); 
    if(title!=null) { 
     String text = title.getContent().getTextExtractor().toString(); 
     } 
    } 
} 
+0

對不起,未格式化的代碼片段,我有點不能得到它的權利,雖然我用4個空格和這樣的... – AndaluZ 2012-03-20 21:52:22

+0

文本編輯器有一個「代碼」格式化程序。它會自動縮進你的代碼4個空格。 – Soviut 2012-10-25 06:32:35

回答

6

這會幫助你:

private String getTextContent(Element elem) { 
    String text = elem.getContent().toString(); 

    final List<Element> children = elem.getChildElements(); 
    for (Element child : children) { 
     text = text.replace(child.toString(), ""); 
    } 
    return text; 
} 
+0

謝謝兄弟:-) – AndaluZ 2012-11-15 09:11:39

+0

這會在某些情況下破壞,例如: A text A text Mene 2015-11-03 12:13:40

相關問題