我有HTML源代碼,我必須在HTML中獲取一些信息文本。我無法使用DOM,因爲文檔格式不正確。如何使用PHP和RegEx從HTML源代碼獲取數據?
也許,來源可能會改變,我不知道這種情況。所以,對於大多數情況來說,解決這個問題必須是明智的。
我正在使用curl獲取源代碼,我將使用preg_match_all函數和正則表達式編輯它。
來源:
...
<TR Class="Head1">
<TD width="15%"><font size="12">Name</font></TD>
<TD>: </TD>
<TD align="center"><font color="red">Alex</font></TD>
<TD width="25%"><b>Job</b></TD>
<TD>: </B></TD>
<TD align="center" width="25%"><font color="red">Doctor</font></TD>
</TR>
...
...
<TR Class="Head2">
<TD width="15%" align="left">Age</B></TD>
<TD>: </TD>
<TD align="center"><font color="red">32</font></TD>
<TD width="15%"><font size="10">data</TD></font>
<TD> </B></TD>
<TD width="40%"> </TD>
</TR>
...
正如我們所看到的,是沒有很好地形成的來源。其實很可怕!但我無能爲力。 來源比這長。
我怎樣才能從源頭獲取數據?我可以刪除所有的HTML代碼,但我怎麼知道數據的順序?我可以用preg_match_all和regex做些什麼?我還可以做些什麼?
我在等你的幫助。
您是否嘗試過使用`DOM`?你可以使用`@`來抑制錯誤,即使它沒有正常形成它仍然可以工作 – 2011-01-26 23:39:37