2011-04-20 117 views
1

我有一個問題涉及HTML頁面的分析。例如,有一個頁面,www.example.com/page.html包含我需要的表格中的信息,www.example.com/page2.html還有一些其他信息,但是是文本格式。目前,我正在使用一個正則表達式(preg_match_all),我必須插入一個手工製作的圖案。有沒有更快/更好的方法來做到這一點。因此,完整的問題是:是否有一種快速/好的方法從HTML頁面提取信息,而不需要我通過正則表達式使用和編輯源代碼的某些部分?分析HTML頁面

(其他信息:我使用PHP i.c.w.捲曲獲得頁面的內容,然後我用preg_match_all提取數據)

回答

4

是的!您可以將網頁內容加載到PHP DOMDocument中,並使用html類和ID獲取數據,就像使用Javascript一樣。

這裏是文檔http://www.php.net/manual/en/class.domdocument.php

你應該使用

DOMDocument::loadHTML($html); 

然後按照文件開始,它的例子

2

使用this post中建議的任何解析器。你不應該使用正則表達式來解析html。