Java正則表達式懶惰操作符不那麼懶惰？

我有一個Java類，它必須在線獲取URL的內容（返回一個XML），並在其上應用正則表達式（行爲由第三方文件定義，所以我不能使用DOM或SAX來解析響應）。下面是代碼：Java正則表達式懶惰操作符不那麼懶惰？

import java.io.InputStream; 
    import java.net.HttpURLConnection; 
    import java.net.URL; 
    import java.util.regex.Matcher; 
    import java.util.regex.Pattern; 


    public class RegExpTest { 
     public static void main(String[] args) { 
      try { 
       StringBuffer buffer = new StringBuffer(); 
       URL url = new URL("http://api.themoviedb.org/2.1/Movie.search/en/xml/57983e31fb435df4df77afb854740ea9/Inglourious+Bastards"); 
       HttpURLConnection conn = (HttpURLConnection)url.openConnection(); 

       conn.connect(); 
       InputStream input = conn.getInputStream(); 

       for(int c = input.read(); c != -1; c = input.read()) 
        buffer.append((char)c); 

       Pattern pattern = Pattern.compile("<movie>.*?<name>([^<]*)</name>.*?<id>([^<]*)</id>.*?</movie>", Pattern.DOTALL); 
       Matcher matcher = pattern.matcher(buffer); 
       for(int i = 1; i < (matcher.groupCount() + 1); i++) { 
        matcher.find(); 
        String toReplace = matcher.group(i); 
        System.out.println(toReplace); 
       } 
      } 
      catch (Exception e) { 
       e.printStackTrace(); 
      } 
     } 
}

它的輸出是該樣品的「無恥混蛋」，然後「22311」，這是在第一部電影標籤名稱標籤的內容，和ID標籤中的內容秒電影標籤。但是，懶惰的操作員應該保證它只是第一個電影標籤中檢索的項目。

此外，python中的以下代碼基本上完全相同，它以預期的方式工作。

import re 
import urllib 

url = urllib.urlopen("http://api.themoviedb.org/2.1/Movie.search/en/xml/" 
    "57983e31fb435df4df77afb854740ea9/Inglourious+Bastards") 

m = re.search("<movie>.*?<name>([^<]*)</name>.*?<id>([^<]*)</id>.*?</movie>", 
     url.read(), re.DOTALL) 
print m.group(1), m.group(2)

有關我的代碼出了什麼問題的任何想法？

感謝

來源

2010-09-07 mripard

你不應該使用正則表達式解析XML。改用適當的XML解析器。 – Gumbo 2010-09-07 14:31:55

我知道我不應該這樣做，但我必須......我也不高興。 – mripard 2010-09-07 14:33:51

有兩個捕獲組在正則表達式，所以find()被調用兩次。你需要調用find()（檢查結果），你開始看比賽信息前：

while (matcher.find()) { 
    for(int i = 1; i < (matcher.groupCount() + 1); i++) { 
     String toReplace = matcher.group(i); 
     System.out.println(toReplace); 
    } 
}

來源

2010-09-07 15:00:04

就是這樣！謝謝！ :) – mripard 2010-09-08 07:49:04

Java正則表達式懶惰操作符不那麼懶惰？

回答

相關問題