考慮以下字符串,它是從pdf中提取的內容表,如下例所示,兩個主題可以在一行上,在結尾處有一個換行符(在本例等)每行用正則表達式從一個大字符串中提取數據
A — N° 1 2 janvier 2013
TABLE OF CONTENT
Topic à one ......... 30 Second Topic .......... 33
Third - one ......... 3 Topic.with.dots .......... 33
One more line ......................... 27 last topic ...... 34
我想提取部分的名稱「主題一」,「第二個主題」,「三酮」,「Topic.with.dots」,「一多行'和'最後一個主題'
任何見解匹配的正則表達式?
您使用哪種正則表達式引擎?請始終爲任何正則表達式問題添加相應的標籤。謝謝! –
部分名稱中允許使用哪些字符? –
@Tim我使用Ruby 2 – denisjacquemin