之間讀所以我有文本源頁,我知道它包含格式化這樣簡單的Java正則表達式2
IMG SRC =「HTTP鏈接:// someurl與-T1
結束我試圖提取img src和-t1之間的任何內容,它不一定非常完美,我可以使用「http ...或src =」http ...等等,我只是想修剪我正在閱讀有關正則表達式,但似乎無法找到邏輯。任何人都可以幫忙嗎?
File workfile = new File("page.txt");
BufferedReader br = new BufferedReader(new FileReader(workfile));
String line;
while ((line = br.readLine()) != null) {
//System.out.println(line);
//Pattern p = Pattern.compile("src"+"t1"); ???
//Matcher m = p.matcher("t1"); ???
}
br.close();
編輯:通過使用解決:
String url = line.split("<img src=")[1].split("-t1")[0];
System.out.println(url);
感謝所有答覆的。
這似乎是HTML,那麼爲什麼不使用HTML解析器? – fge
測試...不知道HTML解析器 – anno