我有一個數據庫,裏面保存了法院檔案系統的HTML,以便我可以輕鬆搜索案卷中的某些動作,摘要等。案卷中的每個新條目都與然後將該條目劃分爲新條目。正則表達式排除比賽內的一場比賽
每個新條目都以標籤開頭。案卷中的下一個可能是我正在尋找的東西。例如,如果我搜索「要執行的動作」,那麼當正則表達式發現該動作時,它會將該信息提取出來(直接鏈接到法院網站上的掃描文檔)。我想在搜索結果中顯示整個案卷條目,以便我可以看到「Motion to Enforce」,並確定這是「強制實施訪問的動議」還是「執行強制和解的動議」。
,我的問題是,每一個案卷項具有相同TBODY標籤開始,所以如果我使用了reged像
/\<TBODY class=\"docketEntry\"\>(.*?)(motion to enforce)/i
比賽返回的頁面,所有文本的第一個TBODY進入直到它到達「執行動議」文本。我不想要這樣,因爲我只想在案卷條目中以「動作強制執行」開頭。感覺就像我需要找到「強制執行的動作」語言並回到代碼的TBODY部分,但我不確定如何向後或者甚至可能。
我的另一個想法是做一個strrev(),然後匹配它並反轉字符串,但我認爲可能有更好的方法來做到這一點。
我的另一個想法是找到TBODY,但如果它在到達「動作進入」語言之前發現另一個TBODY,它將不會在返回的匹配結果中包含第一個TBODY。
例:
<TBODY class="docketEntry">
some uninteresting docket entry here
</TBODY>
<TBODY class=docketEntry">
Motion to Enforce Visistation
</TBODY>
與(*?),這整個的例子是一個比賽,但我只想要立即前面的TBODY「運動,以強制執行」。我的想法是,如果它只匹配一個有TBODY的模式,然後是除了另一個TBODY之外的任何文本,然後是「強制執行的動作」文本,這會給我正是我想要的。
這個問題的關鍵是能夠在MySQL查詢中獲取這些數據,並獲取我需要的數據,以便在得到結果後切斷解析或匹配任何內容的步驟。
感謝您的任何幫助!
賈羅德