我想解析HTML文檔,並提取可重複一定的div塊HTML一定格。提取使用Java +正則表達式
我已經成功地提取該塊的第一次出現,但我不能弄清楚如何獲得下一個。
這是我到目前爲止的代碼:
String inputStr = HTTPGetter.get("http://someurl");
String patternStr ="<div class=\"MY-CLASS\">(.*?)</div>";
// Compile and use regular expression
Pattern pattern = Pattern.compile(patternStr);
Matcher matcher = pattern.matcher(inputStr);
boolean matchFound = matcher.find();
if (matchFound) {
// Get all groups for this match
for (int i=0; i<=matcher.groupCount(); i++) {
String groupStr = matcher.group(i);
System.out.println("Group found:\n"+groupStr);
}
} else {
System.out.println("Not found");
}
我解析該文件有類MY-CLASS的多於一個的div塊。我想要所有這些。
我該怎麼做?
如果該文件是XHTML這隻會工作。 – 2009-09-08 12:54:33
也有大量的HTML解析器:http://stackoverflow.com/search?q=java+html+parser – 2009-09-08 12:55:20