我有一個Java類,它必須在線獲取URL的內容(返回一個XML),並在其上應用正則表達式(行爲由第三方文件定義,所以我不能使用DOM或SAX來解析響應)。下面是代碼:Java正則表達式懶惰操作符不那麼懶惰?
import java.io.InputStream;
import java.net.HttpURLConnection;
import java.net.URL;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class RegExpTest {
public static void main(String[] args) {
try {
StringBuffer buffer = new StringBuffer();
URL url = new URL("http://api.themoviedb.org/2.1/Movie.search/en/xml/57983e31fb435df4df77afb854740ea9/Inglourious+Bastards");
HttpURLConnection conn = (HttpURLConnection)url.openConnection();
conn.connect();
InputStream input = conn.getInputStream();
for(int c = input.read(); c != -1; c = input.read())
buffer.append((char)c);
Pattern pattern = Pattern.compile("<movie>.*?<name>([^<]*)</name>.*?<id>([^<]*)</id>.*?</movie>", Pattern.DOTALL);
Matcher matcher = pattern.matcher(buffer);
for(int i = 1; i < (matcher.groupCount() + 1); i++) {
matcher.find();
String toReplace = matcher.group(i);
System.out.println(toReplace);
}
}
catch (Exception e) {
e.printStackTrace();
}
}
}
它的輸出是該樣品的「無恥混蛋」,然後「22311」,這是在第一部電影標籤名稱標籤的內容,和ID標籤中的內容秒電影標籤。但是,懶惰的操作員應該保證它只是第一個電影標籤中檢索的項目。
此外,python中的以下代碼基本上完全相同,它以預期的方式工作。
import re
import urllib
url = urllib.urlopen("http://api.themoviedb.org/2.1/Movie.search/en/xml/"
"57983e31fb435df4df77afb854740ea9/Inglourious+Bastards")
m = re.search("<movie>.*?<name>([^<]*)</name>.*?<id>([^<]*)</id>.*?</movie>",
url.read(), re.DOTALL)
print m.group(1), m.group(2)
有關我的代碼出了什麼問題的任何想法?
感謝
你不應該使用正則表達式解析XML。改用適當的XML解析器。 – Gumbo 2010-09-07 14:31:55
我知道我不應該這樣做,但我必須......我也不高興。 – mripard 2010-09-07 14:33:51