2012-10-05 177 views
1

我目前正在構建一個刮板來從網站上刮取某些信息。從網站檢索特定數據

例如,我想從一個網站獲得一個餐廳名稱,地址,開放時間&電話號碼。

通過使用curl,我設法從該網站的數據:

$url = "http://localhost/test.html"; 
    $ch = curl_init(); 
    curl_setopt($ch, CURLOPT_URL, $url); 
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 
    $data = curl_exec($ch); 
    curl_close($ch); 

不過,我需要我如何將能夠針我刮指向的確切位置刮這些信息的一些想法出。

我試過正則表達式,但無法使其正常工作。

+1

請記住,此類操作可能會與版權發生衝突。 – Peon

+0

是的,我知道我們擁有這個項目的版權,我正在處理 – ben

+0

好吧,如果你擁有這個項目,只需在項目端創建一個XML響應,它將生成並返回所需的數據。 – Peon

回答

3

使用SimpleHTMLDom解析器PHP:
http://simplehtmldom.sourceforge.net/

這裏下載:
http://sourceforge.net/projects/simplehtmldom/files/

文檔瀏覽:
http://simplehtmldom.sourceforge.net/manual.htm

這是我與解析的最佳工具體驗用php解析HTML ...

而且你不需要使用捲曲用於獲取的內容,如果沒有必要,對simpleHTMLDom解析器只需使用:

$remote_html = file_get_html("http://www.somesite.com/"); 
+0

感謝您的快速回復!我會在週末看看 – ben

+0

你不會在simpleHTMLDom解析器中犯錯,它真的很好,我個人使用它已經很多年了。如果你需要一些具體的幫助隨時問... – Develoger

+0

剛剛使用這個..真的很有用 – ben