我一直在研究一個正則表達式來分離一堆我需要解析到數據庫中的文本文件。我的文件的格式如下:使用多個捕獲組的正則表達式
Lorem ipsum dolor sit amet, consectetur adipiscing elit.
Fusce lacinia sollicitudin lectus id eleifend. Phasellus.
massa sapien, scelerisque in tincidunt et, porttitor eget ante.
In iaculis justo vel quam rhoncus volutpat. Curabitur eros est,
ultrices in elementum eget, venenatis eget mauris. Sed sollicitudin,
nibh sed varius aliquet, neque odio porttitor risus, at sollicitudin
lectus neque sit amet diam.
Aliquam condimentum sapien eu
tellus condimentum suscipit.
Pellentesque in accumsan nunc.
我試圖想出以下的捕捉組:
Lorem ipsum dolor
sit amet, consectetur adipiscing elit.
Fusce lacinia sollicitudin lectus id eleifend. Phasellus.
massa sapien, scelerisque in tincidunt et, porttitor eget ante.
In iaculis justo vel quam rhoncus volutpat. Curabitur eros est, ultrices in elementum eget, venenatis eget mauris. Sed sollicitudin, nibh sed varius aliquet, neque odio porttitor risus, at sollicitudin
備註: 多行段後的所有內容都可以忽略。所有的組可以包括字母,數字,空格和標點符號。我將使用PHP對文本進行一些額外的後處理。
我最後一次嘗試拍攝第一兩個部分,這是比我的其他嘗試接近,但仍然沒有工作打算是:
^((?:[a-zA-Z0-9!-~](?: (?!))?)+?)(?: {2,})((?:[a-zA-Z0-9!-~](?: (?!))?)+?)
我認爲這將在文件的開頭開始,捕捉所有內容,直到它遇到多個空格,然後抓住該行的其餘部分。
你在用什麼語言? – 2011-05-08 01:22:52
我使用PHP來完成一切。 – Tim 2011-05-08 01:34:27
只爲了解。在詢問正則表達式問題時這很有用。 – 2011-05-08 01:35:46