Java的模式正則表達式

示例代碼：Java的模式正則表達式

import java.util.regex.Matcher; 
import java.util.regex.Pattern; 

public class Regex { 
public static void main(String[] args) { 
    String data = ". Shyam and you. You are 2.3 km away from home. Lakshmi and you. Ram and you. You are Mike. "; 
    Pattern pattern = Pattern.compile("(?<=\\.\\s)(.*?are.*?)(?=\\.\\s)"); 
    Matcher matcher = pattern.matcher(data); 
    while (matcher.find()) { 
     System.out.println(matcher.group(1)); 
     } 
    } 
}

所需的輸出：

您有2.3公里，從家裏

你是邁克

但真正的輸出是

Shyam和你。你距離家2.3公里遠

Lakshmi和你。拉姆和你。你是邁克

請幫忙。

來源

2013-08-27 user2722117

參見：http://stackoverflow.com/questions/1232220/how-to-non-greedy-multiple-lookbehind-matches –

是否有一個原因，'你已經有2.3公里home.'發生輸入兩次，只輸出一次？ – Thomas

提示：'^'和'$'允許您捕獲字符串的開頭和結尾 –

您的表情與第一個點匹配，並且.*?也會匹配點。因此，您可以獲得Shyam and you...作爲匹配。嘗試更改(.*?are.*?)至([^\\.]*?are[^\\.]*?)以匹配除點之外的所有字符。

請注意，您還可以將表達式簡化爲\s*([^\.]*are[^\.]*)（此處爲非Java符號）。這會有相同的結果，但也會匹配"You are Shyam. You are Mike."。

該表達式可以匹配不包含點的字符序列與中間的「are」之間的任意空格。請注意，這也將單獨匹配are，因此您可能需要將[^\.]*更改爲[^\.]+。

編輯：

爲了考慮您的更新例如，你可以試試這個表達式（休息下來如下）：

\s*((?:[^\.]|(?:\w+\.)+\w)*are.*?)(?:\.\s|\.$)

輸入：I am here. You are almost 2.3 km away from home. You are Mike. You are 2. 2.3 percent of them are 2.3 percent of all. Sections 2.3.a to 2.3.c are 3 sections. This is garbage.

輸出：You are almost 2.3 km away from home ，You are Mike，You are 2,2.3 percent of them are 2.3 percent of all,Sections 2.3.a to 2.3.c are 3 sections

一些注意事項：這將需要每個句子以一個圓點結尾（這可以通過用[.!?]\s|[.!?]$替換\.\s|\.$來更改），每個分隔點後跟一個空格或輸入的結尾，並且不匹配You are J. J. Abrams或2.a

請注意，在這種情況下，計算機確實很難確定句子結尾，特別是使用「簡單」正則表達式。

表達分解：

\s*前導空白不會是組的一部分，否則這是沒有必要
((?:[^\.]|(?:\w+\.)+\w)*are.*?)捕獲的組，之前和之後包含are和附加的文本
- (?:[^\.]|(?:\w+\.)+\w)一個非捕獲組匹配任何非點字符序列（[^\.]）或（|）a字序列字符（\w作爲[a-zA-Z0-9_]單點之間（快捷方式）(?:\w+\.)+\w)，也非捕獲）
- .*?字符但具有懶惰改性劑的任何序列匹配最短的序列，而不是最長（沒有它，下一個部分將沒有多大意義）
(?:\.\s|\.$)必須遵循所捕獲的基團的非捕獲組，它必須或者在輸入的結束相匹配的點，接着空格（\.\s）或（|）的點（\.$）

編輯2：

這裏的無(A|B)*基團的不徹底的測試版本：

\s*([^.]*(?:(?:\w+\.)+\w+[^.]*)*are.*?)(?:[.!?]\s|[.!?]$)

基本上(?:[^\.]|(?:\w+\.)+\w)*已被替換爲[^.]*(?:(?:\w+\.)+\w+[^.]*)*，意思是「非點的字符的任何序列，隨後通過任意數量的由點字圍繞的點組成的序列，然後是任何非點字符序列「。 ;）

來源

2013-08-27 15:16:58 Thomas

我編輯了我的問題來更改示例字符串。請看看它。我認爲你可以解決我的問題:) – user2722117

這就是我想要的:) 謝謝托馬斯:) – user2722117

我試着用我的原始數據（約800句話）你的正則表達式。它導致溢出錯誤。在搜索關於相同。我開始知道（A | B）*像我們的正則表達式中的模式會導致錯誤。反正有沒有這樣做一個正則表達式？ – user2722117

試試這個正則表達式：

"[\\. ]([^\\. ]* are [^\\. ]*)[\\. ]"

來源

2013-08-27 15:19:15 loscuropresagio

例如：你和jm。你距離家2.3公里。你可以做到這一點。我希望正則表達式能夠與這個例子一起工作。 – user2722117

@ user2722117你真的不清楚你在評論中想說什麼。把東西放在引號或代碼刻度中來分隔你的附加例子。 – AJMansfield

@AJMansfield是的，我也和我以前的評論一樣。反正，我用相同的例子更新了我的問題:) – user2722117

您可以嘗試正則表達式：

You are (\d+(\.\d+)?|\w+|)*

Regular expression visualization

例如爲：

private static final Pattern REGEX_PATTERN = 
     Pattern.compile("You are (\\d+(\\.\\d+)?|\\w+|)*"); 

public static void main(String[] args) { 
    String input = ". Shyam and you. You are 2.3 km away from home. Lakshmi and you. Ram and you. You are Mike. "; 

    Matcher matcher = REGEX_PATTERN.matcher(input); 
    while (matcher.find()) { 
     System.out.println(matcher.group()); 
    } 
}

輸出：

You are 2.3 km away from home 
You are Mike

來源

2013-08-27 15:40:51

很好的可視化。爲了未來讀者的利益，這來自[Debuggex.com]（http://www.debuggex.com/）。 – dimo414

Java的模式正則表達式

回答

相關問題