我有一些HTML如下:使用正則表達式(或任何其他方式)一致的基礎HTML
<b>This is a title: </b> 0091 + Two + 423 + Four + (Five, Six, Seven)
<b>Some more text: </b> Abc + Hi + Random + Text + (Hello, 522, Four)
...
<b>Hello world!: </b> Test + Foo + 1122 + (120, 122, Four)
現在,使用php
,我想分開這一點,並讓兩個數組如下:
陣列1 - (這在<b>
標籤將擁有一切)
[0] -> <b>This is a title: </b>
[1] -> <b>Some more text: </b>
...
[n] -> <b>Hello world!: </b>
陣列2 - (這將擁有一切外的<b>
標籤)
[0] -> 0091 + Two + 423 + Four + (Five, Six, Seven)
[1] -> Abc + Hi + Random + Text + (Hello, 522, Four)
...
[n] -> Test + Foo + 1122 + (120, 122, Four)
我試圖用正則表達式和preg_match_all
,但我似乎無法推測出來。任何幫助將不勝感激。
謝謝!
**不要使用正則表達式來解析HTML **。你不能用正則表達式可靠地解析HTML,你將面臨悲傷和挫折。只要HTML從你的期望改變,你的代碼就會被破壞。有關如何使用已經編寫,測試和調試的PHP模塊正確解析HTML的示例,請參閱http://htmlparsing.com/php。 –
嗨,安迪!我已經在使用'simple_html_dom'庫(在你發佈的鏈接中提到過)。特別是我在這段時間裏遇到了困難,我決定去正則表達式路線。只是爲了這種情況。否則,我正在使用HTML解析器庫。感謝您的輸入:) – wiseindy