2017-03-06 75 views
1

之間的起始位置這下面的代碼可以找到的文字它們是標籤之間等作爲<tag></tag> 但我試圖找到啓動和發現文本結束位置,例如該代碼的結果是:爪哇發現標籤

[apple, orange, pear] 

,而不是這個結果,我想有這樣的結果:

[5,9], //apple 
[33,38], //orange 
[44,47], //pear 

代碼:

public static void main(String[] args) { 
    final String str = "<tag>apple</tag><b>hello</b><tag>orange</tag><tag>pear</tag>"; 
    System.out.println(Arrays.toString(getTagValues(str).toArray())); 
} 

private static final Pattern TAG_REGEX = Pattern.compile("<tag>(.+?)</tag>"); 

private static List<String> getTagValues(final String str) { 
    final List<String> tagValues = new ArrayList<String>(); 
    final Matcher matcher = TAG_REGEX.matcher(str); 
    while (matcher.find()) { 
     tagValues.add(matcher.group(1)); 
    } 
    return tagValues; 
} 

我怎麼能找到開始的這部分代碼文本的位置:

while (matcher.find()) { 
     tagValues.add(matcher.group(1)); 
} 
+3

不要使用正則表達式來解析XML,使用Java的XML解析基礎設施。 –

+0

@ tux-world它是一種不好的做法,使用正則表達式進行這種解析,使用XML解析它是非常容易和基本的概念java –

回答

1

如果你不想使用正規的分析器,您可以修改代碼

while (matcher.find()) { 
    //tagValues.add(matcher.group(1)); 
    System.out.print("Start index: " + matcher.start(1)); 
    System.out.println(" End index: " + matcher.end(1)); 
    tagValues.add(String.format("[%d,%d]", matcher.start(1), matcher.end(1))); 
} 
+0

謝謝,問題解決 –

+1

@ tux-world它是可行的,但你需要避免使用正則表達式在使用標籤時 –

0

試試這個:

public static void main(String[] args) { 
    final String str = "<tag>apple</tag><b>hello</b><tag>orange</tag><tag>pear</tag>"; 
    System.out.println(Arrays.toString(getTagValues(str).toArray())); 
} 

private static final Pattern TAG_REGEX = Pattern.compile("<tag>(.+?)</tag>"); 

private static List<String> getTagValues(final String str) { 
    final List<String> tagValues = new ArrayList<String>(); 
    final Matcher matcher = TAG_REGEX.matcher(str); 
    while (matcher.find()) { 
     String found = matcher.group(1); 

     int start = str.indexOf(found); 
     tagValues.add("[" + String.valueOf(start) + ", " + String.valueOf(start + found.length()) + "]"); 
    } 
    return tagValues; 
} 
1

由於這就像xml一個基於標籤的輸入,你可以使用SAX解析或dom解析技術。

File inputFile = new File("input.txt"); 
SAXBuilder saxBuilder = new SAXBuilder(); 
Document document = saxBuilder.build(inputFile); 
getAttribute("tag"); 

查看完整的細節here