2011-05-07 62 views
1

存儲抓取的數據要在我的web應用程序建立一個教育的搜索引擎,所以我決定爬約10使用PHP從我的網頁,網站,並且將數據存儲到我的數據庫供以後搜索。我如何檢索這些數據並將它們存儲在我的數據庫中?我如何從網頁

回答

0

您可以file_get_contents()功能抓住他們。所以你會有

這個函數返回一個字符串的頁面。

希望這會有所幫助。乾杯

0

構建便於抓取我會做的URL列表以獲得最後讓他們

A.榜上無名

  1. 定義URL列表抓取
  2. 添加此URL到要爬行的URL列表(作業列表)
  3. 定義最大深度
  4. 解析第一個頁面,獲取所有找到的href,獲取li NK。
  5. 對於每個鏈接:如果從同一個域或相對的,將其添加到任務列表。
  6. 如果非空從作業列表從下一個URL的工作列表中刪除當前的URL,
  7. 重新啓動。

爲此,你可以使用這個類,這使得解析HTML非常簡單: http://simplehtmldom.sourceforge.net/

B.獲取內容

循環所作的陣列上,並獲取內容。的file_get_contents會爲你做到這一點: http://www.php.net/manual/fr/function.file-get-contents.php

這僅僅是一個開始基本有效的,在步驟A,你應該保持已經被解析URL列表,檢查只是其中。查詢字符串也可以是您要查看的內容,以避免使用不同的查詢字符串掃描多個頁面。