我有一個應用程序使用來自多個應用程序APIS(Facebook,Twitter,Instagram等)的數據,從PHP的REST端點訪問它們。虛榮URL + REST +網頁爬蟲
我正在爲我的應用程序用戶構建一個虛榮URL,例如http://www.myapp.com/username。
如果我有一個數據庫,我可以從數據庫中獲取用戶數據以顯示在用戶頁面中。
使用REST服務,每當我進入URL時,都會調用API從主網站獲取信息。
的問題越來越大,因爲該應用程序會從搜索引擎爬蟲獲得大量流量的(我不會降低爬行速度)
1問題:由於API提供每機會有限(2000查詢小時),有一種方法可以跳過api調用(例如,使用memcache)?
第二個問題:我想做一個虛榮URL,所以每次我打電話http://www.myapp.com/username我必須調用API獲取用戶名和用戶名,我想知道這是否是正確的方法來做到這一點,大多數網站通過url重寫來實現,但如何在有外部數據而不是內部數據庫時處理它?
感謝您的閱讀,需要任何幫助!
我使用codeigniter,實際上問題是關於我不希望爬行程序洪水我的令牌與調用。太多的頁面被抓取,然後我達到我的最大API調用 – dpi
幫我理解。您是否正在使用某些服務將網址通話次數限制爲每小時2000次?否則每小時2000個查詢是不現實的。 – kapad
是的,我需要在每個頁面上查詢,問題在於谷歌爬蟲,加載頁面超過了最大限制。問題是如果有一種方法在不減緩抓取速度的情況下不發生這種情況 – dpi