我有文件與發言者被標記的談話序列。我的文件格式是:Perl的正則表達式匹配的東西,但要確保匹配字符串不包含字符串
<SPEAKER>John</SPEAKER>
I am John
<SPEAKER>Lisa</SPEAKER>
And I am Lisa
我現在正在查明約翰說話,麗莎說右後(然後我想,然後保留文檔的整個部分的每個文檔的第一序列遵循該序列,包括序列)。
我建這個表達式:
^.*?(<SPEAKER>John<\/SPEAKER>.*?<SPEAKER>Lisa<\/SPEAKER>.*)
,但它當然也捕獲那裏是音箱的序列的情況下是約翰 - 邁克爾 - 麗莎,即其中有一個人約翰和麗莎之間說話。
我該如何獲得正確的比賽?
我懷疑你可以爲此做一個(合理的)正則表達式,但它應該很容易在perl程序中使用regexp來做到這一點。 – owler
這是一個合適的XML文檔嗎? – Borodin
你是否想在第一個John-Lisa序列之後捕獲所有東西,而不管它是什麼? (例如,其他約翰 - 麗莎交換,有或沒有中斷。) – zdim