2012-07-24 16 views
1

我開始在CakePHP 2.2中構建一個web爬蟲。 頁面,腳本正在爬行的是HTML頁面,我需要解析它們以獲取我的值。解析Cakephp中的HTML

已經嘗試了一些不同的解決方案,並查看了一些開源的東西,但不知道最好的辦法是做什麼。

要弄清楚,我應該使用哪種方法,我需要你的幫助。

+0

它看起來像我應該使用PHP的DOM文檔,但找不到任何好的教程吧。 – 2012-07-24 18:41:08

回答

2

DomDocument是您的最佳選擇。在這個模塊的php.net文檔中有一些體面的例子。如果你可以使用其他語言如ruby我有非常好的經驗與hpricot,一個像解析HTML的庫的jQuery。

這個問題是關係到Robust and Mature HTML Parser for PHP