邊界範圍的多個匹配帶單文本

我試圖解析出一個類型的屬性（如：單詞「CUSIP」，「發行人」，和「優惠券」），如下所示：邊界範圍的多個匹配帶單文本

Public Type GetPricesResponse 
    Cusip   As String 
    Issuer   As String 
    Coupon   As String 
End Type

正則表達式([a-zA-Z0-9]+).+As適用於此代碼片段（請參閱http://regexr.com?300fl），但與大量代碼混合使用時可能無法正常工作。所以，我一直試圖「結合」這個表達式，並在最後的話Public Type放在前面，並End Type來具體確定什麼，我需要如下：

Public\sType\s([a-zA-Z0-9]+).+As.+End\sType

...但當然再沒有按不匹配任何東西。

我也設置了MultiLine選項。

來源

2012-02-13 BigAl

你最好使用兩個正則表達式，一個相匹配的類型聲明，接着又反覆匹配前面的正則表達式的截取部分中的屬性。 – Cameron 2012-02-13 21:32:14

我喜歡這種簡單。但是這增加了我想要創建的引擎的複雜性。雖然這個例子需要2個正則表達式來查找相關文本，但是另一個示例可能需要4個正則表達式，或者可能更多。我希望得到一個一體化解決方案來簡化事情。由於「（\ w +）as」完全匹配所有3個屬性，因此爲什麼「Type \。+（\ w +）as \。+ End」與它們匹配呢？這是RegEx引擎邏輯的缺陷，還是我腦中的邏輯不足？（不要回答！）如果你能解釋爲什麼這不起作用的推理，我會很感激！ – BigAl 2012-02-17 22:06:42

你的正則表達式中只有一個'（\ w +）';所以它只匹配部分字符串。但即使你重複了內部部分，你也只能成功確定整個字符串是否匹配 - 沒有辦法獲得重複組捕獲的所有值（這是正則表達式的限制）。確切說明你的原始正則表達式的作用：首先找到'公共類型'的第一次出現。然後從該位置匹配儘可能多的字母數字字符（並將它們捕獲到一個組中）。 '。+'到達字符串的末尾，此時... – Cameron 2012-02-17 22:34:59

你提出了兩個不同的問題。

第一個問題大致是「我可以寫一個正則表達式來匹配這個東西」，答案是肯定的。爲簡單起見，我用的\w代替[a-zA-Z0-9]：

Public\s+Type\s+(\w+)\s+((\w+)\s+As\s+(\w+)\s*('.*\s*)?)+End\s+Type

接下來就是「我怎麼能解析出的屬性」和這個問題的答案是，寫在註釋：不要使用單一的正則表達式。首先，使用只捕獲定義一個正則表達式：

Public\s+Type\s+\w+\s+(.*?)End\s+Type

這將使用不情願的量詞*?使正則表達式不會吞噬End Type和DOTALL標誌，這樣就可以匹配多個行。從這場比賽中，你拿組1並多次find如下：

^\s+(\w+)\s+.*$

1集團從這場比賽將是你的屬性名稱。

來源

2012-02-13 23:29:11 beerbajay

使用下面的正則表達式匹配整個事情：

Public\s+Type\s+(?<tname>[\w]+)\s+((?<pname>[\w]+)\s+As\s+(?<ptype>[\w]+)\s+)+End\s+Type

注意，它使用命名組爲到匹配的內容更容易獲得。因此，在全部內容匹配後，名爲tname的組與匹配類的類型匹配，名爲pname的組匹配屬性名稱，名爲ptype的組匹配相應的屬性類型。

下面是它的現場演示：

http://regexr.com?300l0

來源

2012-02-14 07:53:49

很抱歉，這種情況不正確。嵌套組只包含其中一個匹配項。爲了獲得所有這些，你必須首先提取整個類型定義並迭代。 – beerbajay 2012-02-14 08:18:49

@beerbajay嵌套組不重要，應該尋找**名爲**組。名爲'pname'的組將包含屬性名稱。在許多正則表達式引擎中，它們也可以被稱爲'$ {pname}'。 – 2012-02-15 11:18:35

新浪 - 根據您的鏈接和beerbajay的評論，我發現它只捕獲最後3個屬性（「優惠券」），而不是其他兩個（「Cusip」和「Issuer」）。 – BigAl 2012-02-17 21:47:46

邊界範圍的多個匹配帶單文本

回答

相關問題