我想從HTML和XML頁面中提取頁面標題。這是正則表達式使用:java正則表達式提取頁面標題
Pattern p = Pattern.compile(".*<head>.*<title>(.*)</title>.*</head>.*");
的問題是,它只是提取從HTML文件的標題,給我空的XML文件。任何人都可以幫助我改變正則表達式以獲得XML頁面標題嗎?
代碼:
content= stringBuilder.toString(); // put content of the file as a string
Pattern p = Pattern.compile(".*<head>.*<title>(.*)</title>.*</head>.*");
Matcher m = p.matcher(content);
while (m.find()) {
title = m.group(1);
}
您是否考慮[* *不使用正則表達式來解析HTML(http://stackoverflow.com/questions/1732348/regex-match-open-標籤 - 除了-XHTML-自足標籤)? – 2012-03-28 17:27:57
這類問題很常見,答案是一樣的:正則表達式不適合解析HTML。這就是說,對於這樣的戰術來說,你可能會成功。發佈你的代碼,我們會看看它。 – 2012-03-28 17:35:49
content = stringBuilder.toString(); //把文件的內容作爲一個字符串 \t圖案P = Pattern.compile( 「*
*