我有源文本不是特別乾淨或格式正確,但我有一個需要找到文本並在標籤中包裝一行。文本是大綱格式。正則表達式來捕獲和包裝輪廓格式文本
1. becomes a <h1> tag
A. becomes a <h2> tag
(1) becomes a <h3> tag
and so on...
下面是源的一些例子。
- 準備測試A.打開門。 B.打開燈。
期望的結果將是
<h1>1. PREPARE FOR TEST</h1>
<h2>A. Open the door.</h2>
<h2>B. Turn on the light.</h2>
遺憾的是,文本可能是在同一行,也可能是多條線路上,甚至有大綱數字和之間的不同數量的空間文本。又如
(1)檢查空氣入口和空氣出口閥被示爲打開如果OAT高於> 53.6華氏度,或閉合如果OAT低於
48.2華氏度
在這種情況下,期望的結果將是
<h3>(1) Check skin air inlet and skin air outlet valves are shown open if temperature is above 53.6 deg F., or closed if temperature is below 48.2 deg F.</h3>
我的問題是
- 如何查找與大綱級別關聯的整行文本,即1.,A.,(1)等。
- 然後我如何用適當的標籤包裝文字。
我在正則表達式方面並不是特別強,我已經能夠完成這個項目所需的一些簡單的事情,但是這讓我有些沮喪。以下是我用來尋找H1線的方法,但是正如任何知道正則表達式的人都能清楚地看到的那樣,這不會超過第一個字。
\ d {1,3} \ S + [AZ] {2}
我使用Python的時刻,但與PHP是更好的,如果需要,可以移動到這一點,仍然可能是因爲我比PHP更好,然後是Python。
謝謝。
你的源文件是否有換行符? –
不能指望換行符。我們正在將PDF轉換爲文本,然後嘗試將其解析出來。 –
**不夠清楚**你說的地方:*以下是一些源代碼的例子*它沒有換行 –