Q

解析Cakephp中的HTML

2012-07-24 16 views 1 likes

1

我開始在CakePHP 2.2中構建一個web爬蟲。頁面，腳本正在爬行的是HTML頁面，我需要解析它們以獲取我的值。解析Cakephp中的HTML

已經嘗試了一些不同的解決方案，並查看了一些開源的東西，但不知道最好的辦法是做什麼。

DomDocument :: loadHTML（） - 看起來像這是解決方案，但不是100％確定。
正則表達式 - 硬有點維護
簡單HTMLDom - http://electrokami.com/coding/simple-html-dom-baked-cakephp-component（專爲蛋糕1.3，它的代碼的自我，是的，我不喜歡它 - ，得到了嚴重的內存泄漏（S））

要弄清楚，我應該使用哪種方法，我需要你的幫助。

2012-07-24 Kim Egede Jakobsen

+0

它看起來像我應該使用PHP的DOM文檔，但找不到任何好的教程吧。 – 2012-07-24 18:41:08

A

回答

2

DomDocument是您的最佳選擇。在這個模塊的php.net文檔中有一些體面的例子。如果你可以使用其他語言如ruby我有非常好的經驗與hpricot，一個像解析HTML的庫的jQuery。

這個問題是關係到Robust and Mature HTML Parser for PHP

2012-07-24 19:09:28

相關問題