2011-08-20 111 views
0

OI想要從第三方網站檢索和刮取大量關於用戶的數據。一旦這個人登錄,我從第三方網站上獲取他們的數據並進行刮擦。我如何最有效地做到這一點,以防止服務器上的重大負載,並確保頁面加載速度不會太慢?我正在考慮設置一個後臺進程來檢索數據並將進程設置爲低優先級。你們對我有其他建議嗎?檢索並從第三方網站抓取大量數據

我正在使用PHP和Mysql。

回答

0

Data Scraping - Wikipedia

就是這個數據廢棄你在說什麼?如果是,我們可能需要更多細節才能提供幫助。

  • 你怎麼知道用戶登錄?
  • 您對第三方系統有什麼樣的訪問權限?
+0

基本上我想從Twitter獲得大量關於用戶的數據。我只是想知道這樣做的有效方式是不會減慢頁面併產生有效的負載。我正在考慮讓用戶登錄,並且之後有一個低優先級的後臺進程獲取有關用戶的數據,因爲它有很多數據。 –

0

爲了準確回答,需要更多信息。爲了指向正確的方向,您應該使用cURL將網頁加載到字符串中。然後使用PHP DOM解析器來解析頁面。如果您正在尋找頁面中的特定元素,那麼DOM XPATH查詢將很有用(http://php.net/manual/en/class.domxpath.php)。或者,您可以使用DOM-> LoadHTML()直接加載頁面,但選項較少。